咱们经常在网站日志中看到各样爬虫抓取记录,最平常的便是百度蜘蛛等搜索引擎,以百度为例,一般咱们判断是不是是百度蜘蛛抓取看用户代理字符串亦便是User-Agent,然则User-Agent是能够模拟的,因此非常多时候亦会有虚假的模拟伪装成百度蜘蛛来抓取,此时候咱们就需要学会分辨真伪。
首要是百度User-Agent代理字符串,百度官方颁布的有如下User-Agent:
移动UA:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+ http://www.baidu.com/search/spider.html)
PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
新增渲染UA:
移动UA:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; + http://www.baidu.com/search/spider.html)
PC UA:Mozilla/5.0 (compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
需要重视的是百度新增了一个移动的User-Agent,和一个PC的User-Agent。咱们晓得了百度蜘蛛的User-Agent,怎样正确识别和判断某条抓取是不是是真实的百度蜘蛛。
怎样识别百度蜘蛛
1、首选咱们需要经过关键词找User-Agent中是否包括Baiduspider;
2、倘若想区分移动和PC的蜘蛛的话,咱们还需要在结果中再进行关键词过滤,移动端的User-Agent包括:Android 、iPhone、Mobile等三个中最少一个。
3、经过以上操作咱们能够分辨出那些抓取是百度蜘蛛抓取,但并不可分辨真伪。
判断百度蜘蛛真伪
1、验证百度蜘蛛真伪咱们通常运用的是DNS反查IP的方式来进行判断,首选咱们需要找到以上抓取记录中蜘蛛的IP。
2、以windows操作系统为例,起始运行中输入cmd 弹出窗口中输入 nslookup (以上IP位置),判断百度蜘蛛的真伪,真是百度蜘蛛结果中会返回以*.baidu.com 或*.baidu.jp 的格式命名hostname,如不包括则为假百度蜘蛛。
3、亦有在线百度蜘蛛真伪查找工具可直接查找。
原创文案,倘若对您有帮忙请点关注。
|