外链论坛

 找回密码
 立即注册
搜索
查看: 54|回复: 3

百度蜘蛛是怎么样抓取一个网站内容的?

[复制链接]

2991

主题

148

回帖

9911万

积分

论坛元老

Rank: 8Rank: 8

积分
99119311
发表于 2024-8-25 15:51:21 | 显示全部楼层 |阅读模式

近期始终在看seo关联的资料,我很好奇的是像百度蜘蛛是怎么样抓取一个网站内容的?在网上找了一圈发掘都是从百度搜索学院里面copy出来的那几篇文案

搜索引擎抓取系统概述(一)搜索引擎抓取系统概述(二) 搜索引擎检索系统概述百度spider介绍 怎样识别Baiduspider只需两步,正确识别百度蜘蛛

在网上看得最多的一句总结便是:百度蜘蛛第1、爬取,第2、存储,第3、预处理,第4、创立索引,第5、排名。这种描述没啥大的问题但没啥卵用。我就想晓得百度蜘蛛来到我的网站上它是怎么爬取内容,爬取的先后次序,爬取的频率?

1、网页蜘蛛怎么样才可到我的网站上来;

关于这个问题的讨论网上非常多,总结概括一下便是:1、指向自己网站的外链;2、去站长平台提交网站上的url;3、sitemap文件和网站首页的链接。第1和第2点网上有非常多关联的描述和做法指引,不必再去重复。我想聊聊我对第3点的一点认识,首要必定要给自己的站点创立一个sitemap文件,并且这个文件必定要放在网站根目录下面,必定能够正常拜访,无权限掌控详细的文件创立能够参考各个搜索引擎的指引(eg:百度sitemap文件)。还要重视这个文件上的url和更新评率,我拿我自己的部分文件说明一下:

<?xml version="1.0" encoding="utf-8"?> <!-- XML文件需以utf-8编码 priority优先权标签,优先权值0.0-1.0数字越大优先级越高 --> <urlset> <url> <loc>https://www.onekbit.com/adminUserAction/toIndex.do</loc> <lastmod>2018-12-23</lastmod> <changefreq>weekly</changefreq> <priority>1.0</priority> </url> <url> <loc>https://www.onekbit.com/FrontPages/systemMgt/aboutus.jsp</loc> <lastmod>2018-12-23</lastmod> <changefreq>weekly</changefreq> <priority>0.8</priority> </url> <url> <loc>https://www.onekbit.com/ViewBlog/toBlogIndex.do</loc> <lastmod>2018-12-23</lastmod> <changefreq>hourly</changefreq> <priority>1.0</priority> </url> <url> <loc>https://www.onekbit.com/ViewBlog/blog/BID20181223100027</loc> <lastmod>2018-12-23</lastmod> <changefreq>hourly</changefreq> <priority>1.0</priority> </url> </urlset>

这儿挑选了几个有表率性的url展示一下,我最起始的url很长并且还带有非常多参数,放到xml文件中还会报错,后面所有优化成这种简单连接。每日保持多写有些实质价值的原创文案频繁更新这个文件。

关于这个文件的更新还需要多重视观察一下你网站上百度拜访日志:

123.125.71.38 - - [23/Dec/2018:21:18:36 +0800] "GET /Sitemap.xml HTTP/1.1" 304 3673

这是百度蜘蛛在我网站上的一行拜访日志,重视其中的304代码就暗示:304 未修改 — 未按预期修改文档。倘若每日过来得到的都是304那样对蜘蛛而言反正你没啥信息可取来不来都同样,它的抓取评率自然就会越来越低,最后就不来了。因此必定按时定量更新网站原创让蜘蛛每次都能够抓取到信息回去,这般蜘蛛才会来得频繁。最后一个小点便是网站内部链接必定要四通八达,让蜘蛛得到更加多指向你网站的链接回去。

2、网页蜘蛛来到网站上爬取的先后次序

网页蜘蛛来到一个网站目录下第1拜访的文件应该是robots.txt,正常的状况下应该是看这个文件有还是暗示全部网站都能够抓取,有就要看文件中的详细限制来抓取,这是正常搜索引擎的一个规定。至于拜访完robots.txt后第二个应该拜访的是首页还是sitemap的文件这个网上说法有点争议,然则我倾向相信第二拜访sitemap文件,我以我网站上一段蜘蛛拜访日志来侧面证明一下:

66.249.64.136 - - [22/Dec/2018:04:10:05 +0800] "GET /robots.txt HTTP/1.1" 404 793 66.249.64.140 - - [22/Dec/2018:04:10:06 +0800] "GET /Sitemap.xml HTTP/1.1" 200 3253 66.249.64.136 - - [22/Dec/2018:04:10:38 +0800] "GET /ViewBlog/blog/BID20181204100011 HTTP/1.1" 200 4331 66.249.64.136 - - [22/Dec/2018:04:10:48 +0800] "GET /ViewBlog/blog/BID20181210100016 HTTP/1.1" 200 4258 66.249.64.138 - - [22/Dec/2018:04:11:02 +0800] "GET /ViewBlog/blog/BID20181213100019 HTTP/1.1" 200 3696 66.249.64.138 - - [22/Dec/2018:04:11:39 +0800] "GET /ViewBlog/blog/BID20181207100014 HTTP/1.1" 200 3595 66.249.64.140 - - [22/Dec/2018:04:12:02 +0800] "GET /ViewBlog/blog/BID20181203100010 HTTP/1.1" 200 26710 66.249.64.138 - - [22/Dec/2018:04:15:14 +0800] "GET /adminUserAction/toIndex.do HTTP/1.1" 200 32040

运用nslookup 66.249.64.136这个IP:

nslookup命令结果

从日志来看第1拜访的是robots.txt文件,第二是sitemap文件,第三是这个sitemap上新增有改动的url,第四好似是经过一下首页。从蜘蛛的IP来观察我猜测是一类专门用来获取网页链接,另一一类专门用来抓取网页内容。百度站长里面有一张图是描述百度蜘蛛的工作流程:

这个能够看出先得到url后读取内容。

3、网页蜘蛛对一个网站的爬取频率

其实上面已然说到了网页蜘蛛对网站爬取频率关联原因,我感觉最重要的还是按时定量更新自己网站上的原创内容,供给网站主题关联信息质量,其次是多做有些导入链接的工作。

onekbit私人导航整理发布

回复

使用道具 举报

3024

主题

2万

回帖

9909万

积分

论坛元老

Rank: 8Rank: 8

积分
99099013
发表于 2024-10-13 13:40:07 | 显示全部楼层
你的见解真是独到,让我受益匪浅。
回复

使用道具 举报

2923

主题

2万

回帖

9956万

积分

论坛元老

Rank: 8Rank: 8

积分
99569400
发表于 2024-10-16 01:59:30 | 显示全部楼层
太棒了、厉害、为你打call、点赞、非常精彩等。
回复

使用道具 举报

3004

主题

2万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99139191
发表于 4 天前 | 显示全部楼层
感谢你的精彩评论,带给我新的思考角度。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|外链论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-5 12:21 , Processed in 0.079093 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.