外链论坛

 找回密码
 立即注册
搜索
查看: 55|回复: 3

1分钟教你认识搜索引擎抓取网站内容的原理

[复制链接]

3062

主题

3万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99139046
发表于 2024-8-25 19:46:06 | 显示全部楼层 |阅读模式

针对刚才接触seo的小白来讲,都会经历这般的迷茫,一心想把网站优化到百度首页但又不知该怎么做?其实很简单,知己知彼方能百战不殆,既然咱们想要把网站优化到首页,首要要先认识搜索引擎的习惯,便是它的工作原理。...

抓取

搜索引擎后台会派出百度蜘蛛,全天候在海量数据里识别并抓取内容;再对内容进行筛选过滤,去掉低质量的内容;将筛选后合格的内容,存储到一个临时的索引库中,进行归类存储。

百度蜘蛛的抓取方式分为:深度抓取以及广度抓取。

深度抓取:百度蜘蛛会跟着一个网页中的链接一条一条追下去,有点顺藤摸瓜的意思。

广度抓取:百度蜘蛛会把一个页面的所有链接所有抓取。

一旦用户在前台触发检索后,搜索引擎再按照用户的关键词在检索库中挑选内容,推测用户搜索需要,将与搜索结果关联的、能满足用户搜索目的的内容,依次排序展示到用户面前。

过滤

物品有质量好坏之分,咱们爱好质量好的。百度蜘蛛是,要晓得搜索引擎的终极目的是为满足用户的搜索需要,为了保准搜索结果的关联性和丰富性,会将哪些低质量的内容筛选出来抛弃掉,那些内容属于这个范围呢?

低质量:语句不通,下句不接上句,表达意思不通顺,这般的会把蜘蛛抓晕的,自然就舍弃了。

其次还有重复性较高的、与主题无关、满屏宣传、充满死链接、时效性较差等。

存储

过滤的差不多了,百度把它“爱好的"都留下。将这些数据有组织创立索引库,并进行归类整理。

将经过滤的有质量内容进行提取和理解,进行和分类存储,创立一个个的目录,最后汇总成一个能快速调用和方便设备理解的索引库,为调取数据做准备。

展示

百度将精品都存放索引库中了,用户在前台触发检索后,就会触发索引库查找例如:网民经过输入关键字(例如SEO),百度蜘蛛就会从索引库找到与之关联的展此刻网民面前。

搜索引擎按照用户搜索意图及内容关联性等指标,依次展示搜索结果。

关联优秀内容会排在第1位,倘若不可满足检索目的,用户可按照展示结果二次、三次搜索,搜索引擎会按照关键词,将展示结果进一步精细和优化排序。





上一篇:网络爬虫的基本原理是什么?
下一篇:搜索引擎蜘蛛的基本工作原理是什么?
回复

使用道具 举报

0

主题

992

回帖

1

积分

新手上路

Rank: 1

积分
1
发表于 2024-9-6 16:06:06 | 显示全部楼层
感谢楼主的分享!我学到了很多。
回复

使用道具 举报

4

主题

488

回帖

79

积分

注册会员

Rank: 2

积分
79
发表于 2024-9-10 09:33:01 | 显示全部楼层
你的见解独到,让我受益匪浅,非常感谢。
回复

使用道具 举报

2986

主题

3万

回帖

9956万

积分

论坛元老

Rank: 8Rank: 8

积分
99569168
发表于 2024-11-14 10:09:09 | 显示全部楼层
感谢您的精彩评论,为我带来了新的思考角度。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|外链论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 00:44 , Processed in 0.219232 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.