搜索引擎为用户展现的每一条搜索结果,都对应着互联网上的一个页面。每一条搜索结果从产生到被搜索引擎展现给用户,都必须经过四个过程:抓取、过滤、创立索引和输出结果。
1、关于抓取(对应的4种链接提交方式)
抓取是基本,那样是什么原因影响着百度蜘蛛的抓取频率和数量呢?百度给出了官方答复:
(1),网站更新频率:更新快多来,更新慢少来,直接影响Baiduspider的来访频率
(2),网站更新质量:更新频率加强了,仅仅是吸引了Baiduspier的重视,Baiduspider对质量是有严格需求的,倘若网站每日更新出的海量内容都被Baiduspider判定为低质页面,依然无道理。
(3),连通度:网站应该安全稳定、对Baiduspider保持畅通,经常给Baiduspider吃闭门羹可不是好事情
(4),站点评估:百度搜索引擎对每一个站点都会有一个评估,且这个评估会按照站点状况持续变化,是百度搜索引擎对站点的一个基本打分(绝非外界所说的百度权重),是百度内部一个非常机密的数据。站点评级从不独立运用,会协同其它因子和阈值一块一起影响对网站的抓取和排序。
2、关于过滤(过滤掉垃圾内容,底层库内容)
百度会自己过滤掉有些垃圾页面,那些是垃圾页面?下面是官方答复:
(1), 重复内容的网页:互联网上已有的内容,百度必然无必要再收录。
(2), 主身体容空短的网页
【1】有些内容运用了百度spider没法解析的技术,如JS、AJAX等,虽然用户拜访能看到丰富的内容,依然会被搜索引擎抛弃
【2】加载速度过慢的网页,亦有可能被当作空短页面处理,重视宣传加载时间算在网页整体加载时间内。
【3】非常多主体不明显的网页即使被抓取回来亦会在这个环节被抛弃。
(3), 部分作坏处网页
3、关于建库(内容为王,你发的文案是不是进入了优秀库)
百度抓回来的页面,会按照页面的质量把这些页面分别放到优秀库、普通库、低质库中去。那样百度怎样判断一个页面的质量的呢?以下是官方的答复:
(1),对用户的价值:
【1】内容独特,百度搜索引擎爱好unique的内容
【2】主体明显,切不要显现网页主身体容不明显而被搜索引擎误判为空短页面不抓取
【3】内容丰富
【4】广告适当
(2),链接重要程度
【1】目录层级——浅层优先
【2】链接在站内的受欢迎程度,内链
4、关于输出结果(权重、权重、还是权重)
最后,百度会按照用户搜索的关键词,第1是把关联的网页从索引库中提取出来,第二是把提取出来的网页根据区别维度的得分进行综合排序。“区别维度”包含:
(1),关联性:网页内容与用户检索需求的匹配程度,例如网页包括的用户检测关键词的个数,以及这些关键词显现的位置;外边网页指向该页面所用的锚文本等
(2),权威性:用户爱好有必定权威性网站供给的内容,相应的,百度搜索引擎亦更相信优秀权威站点供给的内容。
(3),时效性:时效性结果指的是新显现的网页,且网页内承载了鲜嫩的内容。日前时效性结果在搜索引擎中日趋重要。
(4),重要性:网页内容与用户检测需求匹配的重要程度或受欢迎程度
(5),丰富度:丰富度看似简单却是一个覆盖范围非常广的命题。能够理解为网页内容丰富,能够完全满足用户需求;不仅能够满足用户单一需求,还能够满足用户的延展需求。
(6),受欢迎程度:指该网页是不是受欢迎。
周彦充QQ:596220609,微X:zycbat 欢迎和我交流