百度蜘蛛抓取规律——怎么让百度蜘蛛经常来?诠网科技告诉你
<div style="color: black; text-align: left; margin-bottom: 10px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">爬虫抓取效率:让百度蜘蛛<span style="color: black;">更易</span>抓取</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">搜索引擎抓取您的网站以将内容放入其索引中。您的网站越大,抓取时间越长。抓取您网站所花费的时间非常重要。<span style="color: black;">倘若</span>您的网站有1,000页或更少,<span style="color: black;">那样</span>这不是您需要<span style="color: black;">思虑</span>的主题。<span style="color: black;">倘若</span>您打算发展您的网站,请继续阅读。尽早<span style="color: black;">得到</span><span style="color: black;">有些</span>好习惯<span style="color: black;">能够</span>避免以后<span style="color: black;">显现</span>巨大的麻烦。在本文中,<span style="color: black;">咱们</span>将介绍爬网效率以及您<span style="color: black;">能够</span>采取的<span style="color: black;">办法</span>。所有搜索引擎都以相同的方式抓取。在本文中,<span style="color: black;">咱们</span>将引用百度。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">爬虫<span style="color: black;">怎样</span>抓取您的网站?</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">百度会在网络上的某个位置找到指向您网站的链接。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">此时,该URL是虚拟堆的<span style="color: black;">起始</span>。之后这个过程非常简单:百度蜘蛛从那一堆中获取一页;它抓取页面并索引所有内容以供在百度中<span style="color: black;">运用</span>;<span style="color: black;">而后</span>它将该页面上的所有链接添加到堆中。在抓取过程中,百度蜘蛛可能会遇到重定向。它被重定向到的URL在堆上。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">您的<span style="color: black;">重点</span><span style="color: black;">目的</span>是<span style="color: black;">保证</span>百度蜘蛛<span style="color: black;">能够</span><span style="color: black;">拜访</span>该网站上的所有网页。第二个<span style="color: black;">目的</span>是<span style="color: black;">保证</span>快速抓取新内容和更新内容。良好的网站架构将<span style="color: black;">帮忙</span>您实现这一<span style="color: black;">目的</span>。尽管如此,您仍然<span style="color: black;">能够</span>很好地<span style="color: black;">守护</span>您的网站。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">爬行深度</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在谈论爬行时,一个重要的概念是爬行深度的概念。假设您有1个链接,从您的网站上的1个网站到1个网页。此页面链接到另一个,另一个,另一个,等等.百度蜘蛛将继续爬行一段时间。但在某些时候,它会决定<span style="color: black;">再也不</span>需要继续爬行。当这一点时,取决于指向<span style="color: black;">第1</span>页的链接的重要性。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这似乎是理论上的,<span style="color: black;">因此</span>让<span style="color: black;">咱们</span>看一个<span style="color: black;">实质</span>的例子。<span style="color: black;">倘若</span>您有10,000个帖子,则所有帖子都属于同一类别,并且每页<span style="color: black;">表示</span>10篇<span style="color: black;">文案</span>。这些页面仅链接到“下一个”和“上一个”。百度需要抓取1,000页深度<span style="color: black;">才可</span><span style="color: black;">得到</span>这10,000个帖子中的<span style="color: black;">第1</span>个。在大<span style="color: black;">都数</span>网站上,它不会<span style="color: black;">这般</span>做。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这<span style="color: black;">便是</span><span style="color: black;">为何</span>重要的是:<span style="color: black;">运用</span>类别/标签和其他<span style="color: black;">归类</span>法进行更细粒度的细分。不要过度<span style="color: black;">运用</span>它们。<span style="color: black;">按照</span>经验,标记仅在连接3个以上内容时才有用。<span style="color: black;">另外</span>,请<span style="color: black;">保证</span>优化这些类别档案。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">链接到带有数字的更深层页面,<span style="color: black;">因此呢</span>百度蜘蛛<span style="color: black;">能够</span>更快地到达目的地。假设你链接第1页的第1页到第10页并继续<span style="color: black;">这般</span>做。在上面的示例中,最深的页面<span style="color: black;">仅有</span>100次点击远离主页。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">保持您的网站快速。您的网站越慢,抓取的时间就越长。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">XML站点地图和抓取效率</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">您的站点应<span style="color: black;">拥有</span>一个或多个XML站点地图。这些XML站点地图告诉百度您网站上存在<span style="color: black;">那些</span>网址。一个好的XML站点地图还会指示您上次更新特定URL的时间。大<span style="color: black;">都数</span>搜索引擎会比其他搜索引擎更频繁地抓取XML站点地图中的URL。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在百度搜索<span style="color: black;">掌控</span>台中,XML站点地图为您<span style="color: black;">供给</span>了额外的好处。<span style="color: black;">针对</span><span style="color: black;">每一个</span>站点地图,百度都会向您<span style="color: black;">表示</span>错误和警告。您<span style="color: black;">能够</span><span style="color: black;">经过</span>为<span style="color: black;">区别</span>类型的URL创建<span style="color: black;">区别</span>的XML站点地图来实现此目的。这<span style="color: black;">寓意</span>着您<span style="color: black;">能够</span>查看网站上<span style="color: black;">那些</span>类型的网址<span style="color: black;">显现</span>问题最多。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">引起</span>爬行效率低的问题</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">1.许多404和其他错误</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">当它抓取您的网站时,百度会遇到错误。它<span style="color: black;">一般</span>只是从堆中挑选下一页。<span style="color: black;">倘若</span>您在抓取过程中网站上有<span style="color: black;">非常多</span>错误,百度蜘蛛会放慢速度。<span style="color: black;">这般</span>做是<span style="color: black;">由于</span>它害怕它<span style="color: black;">经过</span>爬得太快而<span style="color: black;">引起</span>错误。为防止百度蜘蛛放慢速度,您需要尽可能多地修复错误。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">百度会在其网站站长工具中向您报告所有这些错误,360和搜狗<span style="color: black;">亦</span>是如此。<span style="color: black;">咱们</span>之前<span style="color: black;">已然</span>在百度搜索<span style="color: black;">掌控</span>台和360网站管理员工具<span style="color: black;">中间商</span>绍了错误 。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">您不会是<span style="color: black;">咱们</span>看到的<span style="color: black;">第1</span>个客户端,它在百度搜索<span style="color: black;">掌控</span>台中有3,000个<span style="color: black;">实质</span>URL和20,000个错误。不要让您的网站<span style="color: black;">作为</span>该网站。<span style="color: black;">最少</span><span style="color: black;">每一个</span>月<span style="color: black;">定时</span>修复这些错误。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">2.301重定向<span style="color: black;">太多</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">我<span style="color: black;">近期</span>在一个<span style="color: black;">刚才</span>完成域迁移的网站上进行咨询。该网站很大,<span style="color: black;">因此</span>我<span style="color: black;">运用</span><span style="color: black;">咱们</span>的一个工具来运行网站的完整抓取,<span style="color: black;">瞧瞧</span><span style="color: black;">咱们</span>应该修复什么。很<span style="color: black;">显著</span><span style="color: black;">咱们</span>有一个大问题。此站点上的一大组URL始终链接到<span style="color: black;">无</span>尾部斜杠。<span style="color: black;">倘若</span>您<span style="color: black;">运用</span>不带尾部斜杠的此类URL,则会重定向301。您将被重定向到带有斜杠的版本 。<span style="color: black;">倘若</span>您网站上的一个或两个网址存在问题则无关紧要。<span style="color: black;">实质</span>上这<span style="color: black;">一般</span>是主页的问题。<span style="color: black;">倘若</span>这是您网站上250,000个网址的问题,<span style="color: black;">那样</span>这就<span style="color: black;">成为了</span>一个更大的问题。百度蜘蛛不必抓取250,000个网址,而是抓取500,000个网址。这不是<span style="color: black;">特别有</span>效率。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这<span style="color: black;">便是</span><span style="color: black;">为何</span>在更改网址时应始终尝试更新网站中的链接的<span style="color: black;">原由</span>。<span style="color: black;">倘若</span>不<span style="color: black;">这般</span>做,随着时间的推移,您将<span style="color: black;">得到</span>越来越多的301重定向。这会降低您的抓取速度和用户速度。大<span style="color: black;">都数</span>系统需要一秒钟来服务器重定向。这会在页面加载时间上再<span style="color: black;">增多</span>一秒。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">3.蜘蛛陷阱</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">倘若</span>您的网站在百度眼中更具权威性,<span style="color: black;">那样</span>有趣的事情就会<span style="color: black;">出现</span>。即使很<span style="color: black;">显著</span>链接<span style="color: black;">无</span><span style="color: black;">道理</span>,百度<span style="color: black;">亦</span>会抓取它。给百度虚拟相当于一个无限螺旋楼梯,它将继续前进。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">网址:www.hzik.cn</strong></p>
</div>
认真阅读了楼主的帖子,非常有益。 你说得对,我们一起加油,未来可期。
页:
[1]