外链论坛

 找回密码
 立即注册
搜索
查看: 59|回复: 1

记录一次百度蜘蛛爬虫疯狂抓取的诡异经历

[复制链接]

2580

主题

276

回帖

9921万

积分

论坛元老

Rank: 8Rank: 8

积分
99210851
发表于 2024-8-25 15:00:17 | 显示全部楼层 |阅读模式

这次诡异的经历时间长达十多天,时期明月网站服务器的负载多次飙升到极限,每次都是强制停止 php-fpm 进程来缓解,能够说严重影响了博客网站的正常运行,刚起始明月还以为是又碰到个“手欠”拿我博客来练手 CC/DDos 攻击的,然则随后几天的日志分析结果外加明月数年败兴被 CC/DDos 攻击经验判断排除了被人攻击的可能性,原由?很简单,你见过有人用百度蜘蛛爬虫IP 来实施 CC/DDos 攻击吗?反正,明月是见过!

起始明月是不相信会是百度蜘蛛爬虫导致的这个结果,然则在把几天的 Nginx 日志里的 IP 进行了筛选后得出的结果是这些爬虫的 IP 几乎都是真实的百度蜘蛛爬虫IP,并不是简单的 UA 仿冒百度蜘蛛爬虫。我去,这个结果真心让人很郁闷呀:我竟然被别人梦寐以求的百度蜘蛛爬虫给围殴了

俗话说“事出反常必有妖”,本着这个思路明月起始了为期1星期的排查工作,由于【不熬夜,是最顶级的自律】和【熬夜怎样改变了咱们的身体】这两篇文案的缘故明月正在戒掉“熬夜”这个习惯(期盼像明月戒烟同样能成功哦!)因此这次排查工作效率很低,都是抽空进行的,需要多次随机的抽查这些蜘蛛爬虫请求的 User Agaent、IP、链接、主机域名等等数据,直到今天最终让明月给找到问题出在哪里了?

导致百度蜘蛛爬虫这次大批量、连续性的抓取一个最重点原由是百度站长平台的“抓取频次”过高导致的,查看百度站长平台站点抓取频次如下图:

能够看到是 21912 次/天,能够想象这个频次给网站服务器带来了多大的压力呀!始终到最后明月才发掘这次是两个站点的高频次抓取一块汇总到我一个服务器上来了,上面这个 21912 次/天是 blog.ymanz.com 这个域名站点的抓取频次,还有一个抓取频次便是我博客的域名 imydl.com 的抓取频次是 17982 次/天。两个站点相叠加那便是每日接近 40000 次的抓取频率,平均到每分钟就要接待近 30 次的请求,无语了!

这负载给拉的是满满的,要晓得明月的服务器配置可是初期阿里云 ECS 最低配置:1H1G 哦

我这小驴车怎么经得起这么折腾,因此明月发掘问题后赶紧处理首要是取消掉 blog.ymanz.com 的解析(这是明月博客初期的域名,日前看来只能是放弃解析了),其次调低百度站长平台里 blog.ymanz.com 和 imydl.com 站点的抓取频次每日上限:

由于 blog.ymanz.com 是个废弃域名了,因此直接调节到最低值。

经过以上操作后,随后的几个小时百度蜘蛛爬虫来访的频率降下来了,服务器的负载难得的恢复如初:

看到这久违的负载值,这几天的忙活白费,这次经历下来让明月针对运维这个工作的认识又加深了不少,这是一个随时都要面对挑战,并且,当面临挑战的时候要平心静气的分析、整理、思考后处理问题并制定出仔细的预防方法并实施,倘若您是一个网站运营者并不是很懂服务器运维,那样明月意见能够思虑一下运维外包服务,例如明月自己就有供给这种有偿服务哦

回复

使用道具 举报

0

主题

2万

回帖

1

积分

新手上路

Rank: 1

积分
1
发表于 6 天前 | 显示全部楼层
你的话语真是温暖如春,让我心生感激。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|外链论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-9-17 03:31 , Processed in 0.075366 second(s), 20 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.