Zac:爬行、抓取、索引、收录，指的都是什么？

ikkhksvu · 发表于 2024-8-25 16:32:56

一位读者在蜘蛛抓取配额是什么这篇帖子留言：

不对呀，这个index标签，指的是告诉蜘蛛能够抓取该页面，那样noindex不便是不准许抓取该页面吗？！那样为何文案最后的几个说明里有“noindex标签不可节省抓取份额。搜索引擎要晓得页面上有noindex标签，就得先抓取这个页面，因此并不节省抓取份额。”

留言说明，这位读者并无太明白什么是抓取，什么是索引，index和noindex标签的道理又是什么。noindex标签不是不准许抓取该页面，是不准许索引该页面，这两者是区别的意思，有区别的功能。

看seo相关博客和论坛时能感觉到，非常多SEO并无理解爬行、抓取、索引、收录这些概念到底指的是什么，区别在哪，noindex、nofollow、robots文件的功能又是什么。对这些概念无精细理解，处理大型网站结构，决定什么页面需要被抓取，什么需要被索引，那些页面需要禁止抓取、索引等等状况时，就很难明白该怎么做。乃至就像抓取配额那篇帖子的非常多留言说的，说到这些状况的处理时，基本看不懂在说什么。

这么基本、重要，又比较容易混淆的SEO概念，我以为以前在博客里写过了，看了留言，翻翻以前帖子才晓得，原来以前没写过。SEO实战秘码书里是有写的，但SEO每日一贴里并无写过。今天补上。

爬行是什么？

爬行指的是搜索引擎蜘蛛从已知页面上解析出链接指向的URL，而后沿着链接发掘新页面（亦便是链接指向的URL）的过程。当然，蜘蛛并不是发掘新URL马上就爬过去抓取新页面，而是把发掘的URL存放到待抓位置库中，蜘蛛根据必定次序从位置库中提取要抓取的URL。

抓取是什么？

抓取是搜索引擎蜘蛛从待抓位置库中提取要抓的URL，拜访这个URL，把读取的HTML代码存入数据库。蜘蛛的抓取便是像浏览器同样打开这个页面，和用户浏览器拜访同样，亦会在服务器原始日志中留下记录。

索引是什么？

索引指的是将一个URL的信息进行整理，存入数据库，亦便是索引库，用户搜索时，搜索引擎从索引库中提取URL信息并排序展现出来。索引的英文是index。索引库是用于搜索的，因此被索引的URL是能够被用户搜索到的，无被索引的URL用户在搜索结果中是看不到的。

要重视的是，所说“一个URL的信息“，并不限于蜘蛛从URL上抓取来的内容，还有来自其它源自的信息，如外边链接、链接的锚文字等。有的时候，索引库中关于这个URL的的信息，基本无从这个URL抓取来的内容，但搜索引擎晓得这个URL的存在，并且有有些其它信息。

抓取和索引不是一回事。

收录是什么？

我个人觉得收录和索引无区别。只不外收录是从搜索用户方向看的，搜索时能找到这个URL，便是这个URL被收录了。从搜索引擎方向看，URL被收录了，亦便是这个URL的信息在索引库中存在。英文并无收录这个词，和索引用的是同一个词index。

noindex的功效是什么？

页面头信息中放上meta noindex标签是告诉搜索引擎不要索引这个URL，亦便是用户搜索时找不到这个URL的信息，这个URL不会返回在搜索结果列表中。

noindex不是告诉搜索引擎不要抓取这个URL，实质上，noindex要起功效，这个URL是必须先被抓取的，否则搜索引擎怎么看到页面HTML代码中有noindex标签呢？

robots文件的功效是什么？

robots文件是告诉搜索引擎，某些URL不要抓取。重视，这儿说的是不要抓取，没说不要索引。和noindex是正相反的。

nofollow的功效是什么？

给链接加上nofollow属性是告诉搜索引擎，不要沿着这个链接爬行，就当这个链接不存在。重视，nofollow只是告诉蜘蛛不要爬这个链接，无说不要抓取链接指向的URL，亦无说不要索引链接指向的URL，nofollow既没禁止抓取，亦没禁止索引。

概念说过后，指出几个SEO们经常弄不明白的状况：

无被抓取的页面是能够被索引的

亦便是说，蜘蛛无拜访和抓取这个页面（例如被robots文件禁止抓取），这个页面却有信息存在索引库中，用户搜索时还能看到。

例如，淘宝全部网站用robots文件禁止百度蜘蛛抓取，但无用noindex禁止索引（如上面说的，禁止抓取后，就没办法禁止索引了，不抓取，就看不到noindex标签了），因此即使百度无拜访和抓取淘宝页面，但淘宝非常多页面是被百度索引的，用户能够搜到的：

百度从网上那样多链接晓得淘宝首页的存在，经过链接的锚文字亦晓得这个页面标题大概是淘宝之类的，当然更晓得百度口碑里的评估数。因此即使百度蜘蛛无抓取淘宝首页，用户还是能搜到，并且表示有些百度晓得的信息。

想要百度不可返回淘宝首页该怎么办呢？取消robots文件的禁止抓取，页面上用noindex禁止索引。

被抓取的页面是能够不被索引的

最平常的便是上面说过的，页面头信息运用noindex禁止索引，页面被抓取，读到noindex后，不被索引，不会在搜索结果中返回。

还有可能是由于页面内容是抄袭、转载、低质量的，搜索引擎虽然抓取了页面，索引过程中检测出这些内容问题，被丢弃，无被索引。因此页面无被收录，一般要先检测原始日志，瞧瞧是不是被抓取过，倘若被抓取过，可能是内容质量问题，倘若基本没被抓取，意见先瞧瞧网站结构是不是有问题。

加了nofollow的链接目的页面能够被抓取和索引

前面说了，nofollow既不禁止抓取，亦不禁止索引。nofollow的功效是告诉蜘蛛不要跟着这个链接爬，就当这个链接不存在，但nofollow只对这个链接起功效，对别的链接没功效，这个链接加了nofollow，不寓意着别的地区就无正常的指向这个URL的链接，只要别的地区显现了没加nofollow的链接，目的URL还是会被发掘、抓取（假设没被robotx文件禁止）、索引（假设没加noindex )。

上面这些概念和应用在SEO中是很重要的，倘若还没看懂，我亦不知道该怎么再解释了，只能意见再多读几遍。

- End -

▼

文∣昝辉(Zac)

已授权于"互联网十八般武艺"首发!

按住二维码，加我微X交流！

流星的美 · 发表于 2024-9-2 17:34:53

楼主继续加油啊！外链论坛加油！

1fy07h · 发表于 2024-9-28 08:42:49

seo常来的论坛，希望我的网站快点收录。

nqkk58 · 发表于 7 天前

说得好啊！我在外链论坛打滚这么多年，所谓阅人无数，就算没有见过猪走路，也总明白猪肉是啥味道的。

nqkk58 · 发表于 7 天前

一看到楼主的气势，我就觉得楼主同在社区里灌水。

m5k1umn · 发表于前天 09:09

论坛的成功是建立在我们诚恳、务实、高效、创新和团结合作基础上，我们要把这种精神传递下去。

		自动登录	找回密码
密码			立即注册