百度蜘蛛是怎么样抓取一个网站内容的？

f9yx0du · 发表于 2024-8-25 15:51:21

近期始终在看seo关联的资料，我很好奇的是像百度蜘蛛是怎么样抓取一个网站内容的？在网上找了一圈发掘都是从百度搜索学院里面copy出来的那几篇文案：

搜索引擎抓取系统概述（一）搜索引擎抓取系统概述（二）搜索引擎检索系统概述百度spider介绍怎样识别Baiduspider只需两步，正确识别百度蜘蛛

在网上看得最多的一句总结便是：百度蜘蛛第1、爬取，第2、存储，第3、预处理，第4、创立索引，第5、排名。这种描述没啥大的问题但亦没啥卵用。我就想晓得百度蜘蛛来到我的网站上它是怎么爬取内容，爬取的先后次序，爬取的频率？

第1、网页蜘蛛怎么样才可到我的网站上来；

关于这个问题的讨论网上亦有非常多，总结概括一下便是：1、指向自己网站的外链；2、去站长平台提交网站上的url；3、sitemap文件和网站首页的链接。第1和第2点网上有非常多关联的描述和做法指引，不必再去重复。我想聊聊我对第3点的一点认识，首要必定要给自己的站点创立一个sitemap文件，并且这个文件必定要放在网站根目录下面，必定要能够正常拜访，无权限掌控。详细的文件创立能够参考各个搜索引擎的指引（eg:百度sitemap文件）。还要重视这个文件上的url和更新评率，我拿我自己的部分文件说明一下：

<?xml version="1.0" encoding="utf-8"?>  <urlset> <url> <loc>https://www.onekbit.com/adminUserAction/toIndex.do</loc> <lastmod>2018-12-23</lastmod> <changefreq>weekly</changefreq> <priority>1.0</priority> </url> <url> <loc>https://www.onekbit.com/FrontPages/systemMgt/aboutus.jsp</loc> <lastmod>2018-12-23</lastmod> <changefreq>weekly</changefreq> <priority>0.8</priority> </url> <url> <loc>https://www.onekbit.com/ViewBlog/toBlogIndex.do</loc> <lastmod>2018-12-23</lastmod> <changefreq>hourly</changefreq> <priority>1.0</priority> </url> <url> <loc>https://www.onekbit.com/ViewBlog/blog/BID20181223100027</loc> <lastmod>2018-12-23</lastmod> <changefreq>hourly</changefreq> <priority>1.0</priority> </url> </urlset>

这儿挑选了几个有表率性的url展示一下，我最起始的url很长并且还带有非常多参数，放到xml文件中还会报错，后面所有优化成这种简单连接。每日保持多写有些有实质价值的原创文案频繁更新这个文件。

关于这个文件的更新还需要多重视观察一下你网站上百度拜访日志：

123.125.71.38 - - [23/Dec/2018:21:18:36 +0800] "GET /Sitemap.xml HTTP/1.1" 304 3673

这是百度蜘蛛在我网站上的一行拜访日志，重视其中的304代码就暗示：304 未修改 — 未按预期修改文档。倘若每日过来得到的都是304那样对蜘蛛而言反正你亦没啥信息可取来不来都同样，它的抓取评率自然就会越来越低，最后亦就不来了。因此必定要按时定量更新网站原创让蜘蛛每次都能够抓取到信息回去，这般蜘蛛才会来得频繁。最后一个小点便是网站内部链接必定要四通八达，让蜘蛛得到更加多指向你网站的链接回去。

第2、网页蜘蛛来到网站上爬取的先后次序

网页蜘蛛来到一个网站目录下第1个拜访的文件应该是robots.txt,正常的状况下应该是看这个文件有还是无，无就暗示全部网站都能够抓取，有就要看文件中的详细限制来抓取，这是正常搜索引擎的一个规定。至于拜访完robots.txt后第二个应该拜访的是首页还是sitemap的文件这个网上说法有点争议，然则我倾向相信第二拜访sitemap文件，我以我网站上一段蜘蛛拜访日志来侧面证明一下：

66.249.64.136 - - [22/Dec/2018:04:10:05 +0800] "GET /robots.txt HTTP/1.1" 404 793 66.249.64.140 - - [22/Dec/2018:04:10:06 +0800] "GET /Sitemap.xml HTTP/1.1" 200 3253 66.249.64.136 - - [22/Dec/2018:04:10:38 +0800] "GET /ViewBlog/blog/BID20181204100011 HTTP/1.1" 200 4331 66.249.64.136 - - [22/Dec/2018:04:10:48 +0800] "GET /ViewBlog/blog/BID20181210100016 HTTP/1.1" 200 4258 66.249.64.138 - - [22/Dec/2018:04:11:02 +0800] "GET /ViewBlog/blog/BID20181213100019 HTTP/1.1" 200 3696 66.249.64.138 - - [22/Dec/2018:04:11:39 +0800] "GET /ViewBlog/blog/BID20181207100014 HTTP/1.1" 200 3595 66.249.64.140 - - [22/Dec/2018:04:12:02 +0800] "GET /ViewBlog/blog/BID20181203100010 HTTP/1.1" 200 26710 66.249.64.138 - - [22/Dec/2018:04:15:14 +0800] "GET /adminUserAction/toIndex.do HTTP/1.1" 200 32040

我运用nslookup 66.249.64.136这个IP：

nslookup命令结果

从日志来看第1拜访的是robots.txt文件，第二是sitemap文件，第三是这个sitemap上新增有改动的url，第四好似是经过一下首页。从蜘蛛的IP来观察我猜测是一类专门用来获取网页链接，另一一类专门用来抓取网页内容。百度站长里面有一张图是描述百度蜘蛛的工作流程：

这个亦能够看出先得到url后读取内容。

第3、网页蜘蛛对一个网站的爬取频率

其实上面已然说到了网页蜘蛛对网站爬取频率关联的原因，我感觉最重要的还是按时定量更新自己网站上的原创内容，供给网站主题关联信息质量，其次是多做有些导入链接的工作。

onekbit私人导航整理发布

nqkk58 · 发表于 2024-10-13 13:40:07

你的见解真是独到，让我受益匪浅。

wrjc1hod · 发表于 2024-10-16 01:59:30

太棒了、厉害、为你打call、点赞、非常精彩等。

qzmjef · 发表于 4 天前

感谢你的精彩评论，带给我新的思考角度。

		自动登录	找回密码
密码			立即注册