f9yx0du 发表于 2024-8-25 15:51:21

百度蜘蛛是怎么样抓取一个网站内容的?


    <div style="color: black; text-align: left; margin-bottom: 10px;">
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> <span style="color: black;">近期</span><span style="color: black;">始终</span>在看SEO<span style="color: black;">关联</span>的资料,我很好奇的是像百度蜘蛛是<span style="color: black;">怎么样</span>抓取一个网站内容的?在网上找了一圈<span style="color: black;">发掘</span>都是从百度搜索学院里面copy出来的那几篇<span style="color: black;">文案</span>: </p>
      <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/398aa73d325941b5822da60132c9c235~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725098682&amp;x-signature=i0QRUl0eBbOP4Xuvt4yh1ma133s%3D" style="width: 50%; margin-bottom: 20px;"></div>搜索引擎抓取系统概述(一)搜索引擎抓取系统概述(二) 搜索引擎检索系统概述百度spider介绍 <span style="color: black;">怎样</span>识别Baiduspider只需两步,正确识别百度蜘蛛<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在网上看得最多的一句总结<span style="color: black;">便是</span>:百度蜘蛛第<span style="color: black;">1、</span>爬取,第<span style="color: black;">2、</span>存储,第<span style="color: black;">3、</span>预处理,第<span style="color: black;">4、</span><span style="color: black;">创立</span>索引,第<span style="color: black;">5、</span>排名。这种描述没啥大的问题但<span style="color: black;">亦</span>没啥卵用。我就想<span style="color: black;">晓得</span>百度蜘蛛来到我的网站上它是怎么爬取内容,爬取的先后<span style="color: black;">次序</span>,爬取的频率?</p>
      <h1 style="color: black; text-align: left; margin-bottom: 10px;">第<span style="color: black;">1、</span>网页蜘蛛<span style="color: black;">怎么样</span><span style="color: black;">才可</span>到我的网站上来;</h1>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">关于这个问题的讨论网上<span style="color: black;">亦</span>有<span style="color: black;">非常多</span>,总结概括一下<span style="color: black;">便是</span>:1、指向自己网站的外链;2、去站长平台提交网站上的url;3、sitemap文件和网站首页的链接。第1和第2点网上有<span style="color: black;">非常多</span><span style="color: black;">关联</span>的描述和做法指引,<span style="color: black;">不必</span>再去重复。我想聊聊我对第3点的一点认识,<span style="color: black;">首要</span><span style="color: black;">必定</span>要给自己的站点<span style="color: black;">创立</span>一个sitemap文件,并且这个文件<span style="color: black;">必定</span>要放在网站根目录下面,<span style="color: black;">必定</span>要<span style="color: black;">能够</span>正常<span style="color: black;">拜访</span>,无权限<span style="color: black;">掌控</span>。<span style="color: black;">详细</span>的文件<span style="color: black;">创立</span><span style="color: black;">能够</span>参考各个搜索引擎的指引(eg:百度sitemap文件)。还要<span style="color: black;">重视</span>这个文件上的url和更新评率,我拿我自己的部分文件说明一下:</p>&lt;?xml version="1.0" encoding="utf-8"?&gt;
      &lt;!-- XML文件需以utf-8编码
      priority优先权标签,优先权值0.0-1.0数字越大优先级越高
      --&gt;
      &lt;urlset&gt;
      &lt;url&gt;
      &lt;loc&gt;https://www.onekbit.com/adminUserAction/toIndex.do&lt;/loc&gt;
      &lt;lastmod&gt;2018-12-23&lt;/lastmod&gt;
      &lt;changefreq&gt;weekly&lt;/changefreq&gt;
      &lt;priority&gt;1.0&lt;/priority&gt;
      &lt;/url&gt;
      &lt;url&gt;
      &lt;loc&gt;https://www.onekbit.com/FrontPages/systemMgt/aboutus.jsp&lt;/loc&gt;
      &lt;lastmod&gt;2018-12-23&lt;/lastmod&gt;
      &lt;changefreq&gt;weekly&lt;/changefreq&gt;
      &lt;priority&gt;0.8&lt;/priority&gt;
      &lt;/url&gt;
      &lt;url&gt;
      &lt;loc&gt;https://www.onekbit.com/ViewBlog/toBlogIndex.do&lt;/loc&gt;
      &lt;lastmod&gt;2018-12-23&lt;/lastmod&gt;
      &lt;changefreq&gt;hourly&lt;/changefreq&gt;
      &lt;priority&gt;1.0&lt;/priority&gt;
      &lt;/url&gt;
      &lt;url&gt;
      &lt;loc&gt;https://www.onekbit.com/ViewBlog/blog/BID20181223100027&lt;/loc&gt;
      &lt;lastmod&gt;2018-12-23&lt;/lastmod&gt;
      &lt;changefreq&gt;hourly&lt;/changefreq&gt;
      &lt;priority&gt;1.0&lt;/priority&gt;
      &lt;/url&gt;
      &lt;/urlset&gt;<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">这儿</span>挑选了几个有<span style="color: black;">表率</span>性的url展示一下,我最<span style="color: black;">起始</span>的url很长并且还带有<span style="color: black;">非常多</span>参数,放到xml文件中还会报错,后面<span style="color: black;">所有</span>优化成这种简单连接。<span style="color: black;">每日</span><span style="color: black;">保持</span>多写<span style="color: black;">有些</span>有<span style="color: black;">实质</span>价值的原创<span style="color: black;">文案</span>频繁更新这个文件。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">关于这个文件的更新还需要多<span style="color: black;">重视</span>观察一下你网站上百度<span style="color: black;">拜访</span>日志:</p>123.125.71.38 - - "GET /Sitemap.xml HTTP/1.1" 304 3673
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这是百度蜘蛛在我网站上的一行<span style="color: black;">拜访</span>日志,<span style="color: black;">重视</span>其中的304代码就<span style="color: black;">暗示</span>:304 未修改 — 未按预期修改文档。<span style="color: black;">倘若</span><span style="color: black;">每日</span>过来得到的都是304<span style="color: black;">那样</span>对蜘蛛而言反正你<span style="color: black;">亦</span>没啥信息可取来不来都<span style="color: black;">同样</span>,它的抓取评率自然就会越来越低,最后<span style="color: black;">亦</span>就不来了。<span style="color: black;">因此</span><span style="color: black;">必定</span>要<span style="color: black;">按时</span>定量更新网站原创让蜘蛛每次都<span style="color: black;">能够</span>抓取到信息回去,<span style="color: black;">这般</span>蜘蛛才会来得频繁。最后一个小点<span style="color: black;">便是</span>网站内部链接<span style="color: black;">必定</span>要四通八达,让蜘蛛<span style="color: black;">得到</span><span style="color: black;">更加多</span>指向你网站的链接回去。</p>
      <h1 style="color: black; text-align: left; margin-bottom: 10px;">第<span style="color: black;">2、</span>网页蜘蛛来到网站上爬取的先后<span style="color: black;">次序</span></h1>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">网页蜘蛛来到一个网站目录下<span style="color: black;">第1</span>个<span style="color: black;">拜访</span>的文件应该是robots.txt,正常的<span style="color: black;">状况</span>下应该是看这个文件有还是<span style="color: black;">无</span>,<span style="color: black;">无</span>就<span style="color: black;">暗示</span><span style="color: black;">全部</span>网站都<span style="color: black;">能够</span>抓取,有就要看文件中的<span style="color: black;">详细</span>限制来抓取,这是正常搜索引擎的一个规定。至于<span style="color: black;">拜访</span>完robots.txt后第二个应该<span style="color: black;">拜访</span>的是首页还是sitemap的文件这个网上说法有点争议,<span style="color: black;">然则</span>我倾向相信第二<span style="color: black;">拜访</span>sitemap文件,我以我网站上一段蜘蛛<span style="color: black;">拜访</span>日志来侧面证明一下:</p>66.249.64.136 - - "GET /robots.txt HTTP/1.1" 404 793
      66.249.64.140 - - "GET /Sitemap.xml HTTP/1.1" 200 3253
      66.249.64.136 - - "GET /ViewBlog/blog/BID20181204100011 HTTP/1.1" 200 4331
      66.249.64.136 - - "GET /ViewBlog/blog/BID20181210100016 HTTP/1.1" 200 4258
      66.249.64.138 - - "GET /ViewBlog/blog/BID20181213100019 HTTP/1.1" 200 3696
      66.249.64.138 - - "GET /ViewBlog/blog/BID20181207100014 HTTP/1.1" 200 3595
      66.249.64.140 - - "GET /ViewBlog/blog/BID20181203100010 HTTP/1.1" 200 26710
      66.249.64.138 - - "GET /adminUserAction/toIndex.do HTTP/1.1" 200 32040<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">我<span style="color: black;">运用</span>nslookup 66.249.64.136这个IP:</p>
      <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/ef9457173ed74e11a4ad65e02247d6fd~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725098682&amp;x-signature=4kn%2Fd%2FM3cgUMMe9hMrDVUIeTIlc%3D" style="width: 50%; margin-bottom: 20px;"></div>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">nslookup命令结果</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">从日志来看<span style="color: black;">第1</span><span style="color: black;">拜访</span>的是robots.txt文件,第二是sitemap文件,第三是这个sitemap上新增有改动的url,第四<span style="color: black;">好似</span>是经过一下首页。从蜘蛛的IP来观察我猜测是一类专门用来获取网页链接,<span style="color: black;">另一</span>一类专门用来抓取网页内容。百度站长里面有一张图是描述百度蜘蛛的工作流程:</p>
      <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/bf404d622c484eecbded9a9b974ec879~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725098682&amp;x-signature=DEPMyOAnVTN1oCVo6eL6uDWBx%2BE%3D" style="width: 50%; margin-bottom: 20px;"></div>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这个<span style="color: black;">亦</span><span style="color: black;">能够</span>看出先<span style="color: black;">得到</span>url后读取内容。</p>
      <h1 style="color: black; text-align: left; margin-bottom: 10px;">第<span style="color: black;">3、</span>网页蜘蛛对一个网站的爬取频率</h1>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> 其实上面<span style="color: black;">已然</span><span style="color: black;">说到</span>了网页蜘蛛对网站爬取频率<span style="color: black;">关联</span>的<span style="color: black;">原因</span>,我感觉最重要的还是<span style="color: black;">按时</span>定量更新自己网站上的原创内容,<span style="color: black;">供给</span>网站主题<span style="color: black;">关联</span>信息质量,其次是多做<span style="color: black;">有些</span>导入链接的工作。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">onekbit私人导航整理发布</p>
    </div>




nqkk58 发表于 2024-10-13 13:40:07

你的见解真是独到,让我受益匪浅。

wrjc1hod 发表于 2024-10-16 01:59:30

太棒了、厉害、为你打call、点赞、非常精彩等。

qzmjef 发表于 4 天前

感谢你的精彩评论,带给我新的思考角度。
页: [1]
查看完整版本: 百度蜘蛛是怎么样抓取一个网站内容的?