u1jodi1q 发表于 2024-7-4 02:38:36

【SEO】关于爬虫抓取JS、CSS、JSON


    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这是一个存在<span style="color: black;">数年</span>、经常<span style="color: black;">显现</span>但又从来<span style="color: black;">无</span>标准<span style="color: black;">处理</span>办法的问题:搜索引擎爬虫(尤其是百度)抓取JS、CSS、JSON文件,robots屏蔽依然抓取的<span style="color: black;">状况</span>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这就引出了几个问题:</p>

    <div style="color: black; text-align: left; margin-bottom: 10px;">1、爬虫抓取JS、CSS是干什么的?

      2、爬虫能否执行JS?

      3、爬虫抓取JS对SEO有什么影响?</div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">针对以上问题,我说下自己的看法:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">第1</span>个,爬虫抓取CSS,用于判断页面元素的<span style="color: black;">要紧</span>程度,及<span style="color: black;">保准</span>快照<span style="color: black;">表示</span>的完整性;抓取JS,用于<span style="color: black;">发掘</span>新链接,及判断<span style="color: black;">是不是</span>存在作<span style="color: black;">坏处</span>的<span style="color: black;">状况</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">第二个, 会执行JS,但不确定所有的JS<span style="color: black;">是不是</span>都会执行。像网上好多人说的“搜索引擎会直接忽略JS、iframe什么的,只抓取纯文本信息”,这从<span style="color: black;">实质</span><span style="color: black;">状况</span>上站不住脚啊,<span style="color: black;">倘若</span>搜索引擎对JS、iframe鸟都不鸟,那内些做黑帽的<span style="color: black;">朋友</span>岂不爽死了(不懂<span style="color: black;">为何</span>爽?请看前两篇关于黑帽的<span style="color: black;">文案</span>,你就懂了!)</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">第三个,这个不<span style="color: black;">晓得</span>。某些<span style="color: black;">状况</span>下,可能会占用抓取配额,<span style="color: black;">不外</span>我经历的几个存在蜘蛛抓取JS的站,流量上并<span style="color: black;">无</span>什么<span style="color: black;">反常</span>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">说到这,我的<span style="color: black;">此刻</span>工作的站在上半年<span style="color: black;">显现</span>过这种<span style="color: black;">状况</span>,百度疯狂的抓json,robots屏蔽<span style="color: black;">各样</span><span style="color: black;">没</span>效,然而流量上并<span style="color: black;">无</span>下降等<span style="color: black;">反常</span><span style="color: black;">情况</span>,本来依我的心理承受能力是<span style="color: black;">基本</span>不会在乎这种<span style="color: black;">状况</span>的┏ (゜ω゜)=☞,<span style="color: black;">然则</span>一查json的抓取比例着实让我菊花一紧,接近40%,是的,你<span style="color: black;">无</span>看错,40%,假设百度一天抓100万页面,40万都是json这玩意。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">而后</span><span style="color: black;">发掘</span>日志中百度的抓取总量跟百度站长<span style="color: black;">工具</span>的抓取频次对不上,几次<span style="color: black;">检测</span>后<span style="color: black;">发掘</span>,日志中的抓取总量 = 百度<span style="color: black;">工具</span>的抓取频次 + 日志中json的抓取总量。<span style="color: black;">亦</span><span style="color: black;">便是</span>说,<span style="color: black;">针对</span>百度给出的抓取频次数据,抓取json的部分是<span style="color: black;">无</span>计算在内的,等于说是附赠的抓取。从这点看,应该对SEO没什么影响,不存在占用抓取配额的问题么,但看抓取比例总是非常蛋疼,还是决定<span style="color: black;">处理</span>下这个<span style="color: black;">状况</span>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">经过排查,<span style="color: black;">发掘</span>有些页面<span style="color: black;">包括</span>一个功能:当页面被请求时先判断来访用户<span style="color: black;">是不是</span>登录,<span style="color: black;">倘若</span>登录则返回该用户历史<span style="color: black;">拜访</span>的其他<span style="color: black;">制品</span>,<span style="color: black;">倘若</span>未登录,则返回指定的内容。返回的内容转换成一个json文件(没错,<span style="color: black;">便是</span>百度疯狂抓的那个),<span style="color: black;">而后</span>传递到前台的js,js<span style="color: black;">经过</span>解析json文件,将解析json后的数据<span style="color: black;">表示</span>在前端界面。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">用的是异步加载,从业务<span style="color: black;">规律</span>上看,对该页面的任何<span style="color: black;">拜访</span>者,<span style="color: black;">倘若</span>不执行这个js,相当于页面没加载完。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">json路径是明文写在js里的,<span style="color: black;">亦</span>不<span style="color: black;">晓得</span>百度是把json的路径识别出来了还是执行js了,反正只要抓了<span style="color: black;">包括</span>这个功能的页面,都会顺带抓对应的json文件。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">综上,预定的<span style="color: black;">处理</span>办法有两种:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">第1</span>种是直接把这个功能对应的JS删了</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">第二种是面对搜索引擎<span style="color: black;">拜访</span>,不返回这个js。<span style="color: black;">因此</span>蜘蛛<span style="color: black;">基本</span>看不到,<span style="color: black;">亦</span>就不会抓了</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">最后<span style="color: black;">由于</span>这个功能上线多月,但数据表现<span style="color: black;">始终</span><span style="color: black;">欠好</span>,点击率低,直接把这个功能砍了.......<span style="color: black;">而后</span>转天在看日志,json抓取量为0......</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">------------------------------------------------------------------------------------------</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">扫描下图右下角二维码,关注“流量贩子”<span style="color: black;">微X</span>公众号。</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://pic4.zhimg.com/80/v2-d5c7221031643a21918a078cc4aae6c7_720w.webp" style="width: 50%; margin-bottom: 20px;"></div>




dhfgh 发表于 2024-8-19 22:01:02

楼主的文章深得我心,表示由衷的感谢!

xuaiqiang 发表于 2024-9-5 20:46:22

软文发布平台 http://www.fok120.com/
页: [1]
查看完整版本: 【SEO】关于爬虫抓取JS、CSS、JSON