外链论坛

 找回密码
 立即注册
搜索
查看: 4|回复: 0

【SEO】关于爬虫抓取JS、CSS、JSON

[复制链接]

707

主题

0

回帖

9778万

积分

论坛元老

Rank: 8Rank: 8

积分
97788074
发表于 前天 02:38 | 显示全部楼层 |阅读模式

这是一个存在数年、经常显现但又从来标准处理办法的问题:搜索引擎爬虫(尤其是百度)抓取JS、CSS、JSON文件,robots屏蔽依然抓取的状况

这就引出了几个问题:

1、爬虫抓取JS、CSS是干什么的? 2、爬虫能否执行JS? 3、爬虫抓取JS对seo有什么影响?

针对以上问题,我说下自己的看法:

第1个,爬虫抓取CSS,用于判断页面元素的要紧程度,及保准快照表示的完整性;抓取JS,用于发掘新链接,及判断是不是存在作坏处状况

第二个, 会执行JS,但不确定所有的JS是不是都会执行。像网上好多人说的“搜索引擎会直接忽略JS、iframe什么的,只抓取纯文本信息”,这从实质状况上站不住脚啊,倘若搜索引擎对JS、iframe鸟都不鸟,那内些做黑帽的朋友岂不爽死了(不懂为何爽?请看前两篇关于黑帽的文案,你就懂了!)

第三个,这个不晓得。某些状况下,可能会占用抓取配额,不外我经历的几个存在蜘蛛抓取JS的站,流量上并什么反常

说到这,我的此刻工作的站在上半年显现过这种状况,百度疯狂的抓json,robots屏蔽各样效,然而流量上并下降等反常情况,本来依我的心理承受能力是基本不会在乎这种状况的┏ (゜ω゜)=☞,然则一查json的抓取比例着实让我菊花一紧,接近40%,是的,你看错,40%,假设百度一天抓100万页面,40万都是json这玩意。

而后发掘日志中百度的抓取总量跟百度站长器具的抓取频次对不上,几次检测发掘,日志中的抓取总量 = 百度器具的抓取频次 + 日志中json的抓取总量。便是说,针对百度给出的抓取频次数据,抓取json的部分是计算在内的,等于说是附赠的抓取。从这点看,应该对SEO没什么影响,不存在占用抓取配额的问题么,但看抓取比例总是非常蛋疼,还是决定处理下这个状况

经过排查,发掘有些页面包括一个功能:当页面被请求时先判断来访用户是不是登录,倘若登录则返回该用户历史拜访的其他制品倘若未登录,则返回指定的内容。返回的内容转换成一个json文件(没错,便是百度疯狂抓的那个),而后传递到前台的js,js经过解析json文件,将解析json后的数据表示在前端界面。

用的是异步加载,从业务规律上看,对该页面的任何拜访者,倘若不执行这个js,相当于页面没加载完。

json路径是明文写在js里的,晓得百度是把json的路径识别出来了还是执行js了,反正只要抓了包括这个功能的页面,都会顺带抓对应的json文件。

综上,预定的处理办法有两种:

第1种是直接把这个功能对应的JS删了

第二种是面对搜索引擎拜访,不返回这个js。因此蜘蛛基本看不到,就不会抓了

最后由于这个功能上线多月,但数据表现始终欠好,点击率低,直接把这个功能砍了.......而后转天在看日志,json抓取量为0......

------------------------------------------------------------------------------------------

扫描下图右下角二维码,关注“流量贩子”微X公众号。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|外链论坛 |网站地图

GMT+8, 2024-7-6 16:30 , Processed in 0.132663 second(s), 20 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.