外链论坛

 找回密码
 立即注册
搜索
查看: 71|回复: 3

学会链接分析,快速定位网站SEO问题

[复制链接]

3104

主题

176

回帖

9909万

积分

论坛元老

Rank: 8Rank: 8

积分
99098713
发表于 2024-8-25 16:31:47 | 显示全部楼层 |阅读模式

点击关注▲艾奇SEM

知识 | 经验 | 新闻 | 资料 四大版块

从SEM到互联网整合营销

作者:响1亮2的3名4字 

源自:百度站长平台

【本文重点内容】

(1)查询是不是有黑链显现——从日志分析,百度蜘蛛抓取了网站的那些预期外的页面,是不是存在黑链。(这个可能要先卖个关子,由于这又是个大工程啦,本期专题会说到有些

(2)百度站长工具外链分析——查看是不是有垃圾外链、黑链等,以及链向的站内什么地区怎样处理。(本期里面有所触及

(3)百度站长工具链接分析——三大死链(内链死链、链出死链、链入死链),批量下载数据,合并数据,excel操作,按规律归类,定位问题,处理问题。(定位和处理,材料不足由于好多已然处理过了,材料了= =|||||)

(4)从分析这些数据,得到的与seo效果关联的其他信息(垃圾搜索引擎、垃圾外链带来的无用抓取,浪费资源配额,怎样拒绝。)

(5)怎样自动化地运用shell脚本,定位到被百度蜘蛛抓取到的死链,并进行复查,而后将确定为死链的URL进行自动化提交。(本期专题内容太多,留作下期专题用)

(6)分析工具介绍(firefox设置,插件,excel,windows命令提示符批处理)

【你许会学到的新姿势】

(1)批量下载百度站长工具中的表格数据(活学活用地去下载其他网站的有些东西,只要你爱好例如5118什么的。5118的站长会不会打我呀?)

(2)合并有些平常的文档,例如txt、csv之类的文本,方便数据分析和处理。

(3)分析死链数据、定位问题的一点基本思路

【本文重点运用到的工具】

(只是结合例子中,倘若有其他类似功能的工具,请结合自己习惯运用就可

【浏览器】火狐(Firefox)浏览器,版本无所说

【插件】:Launch Clipboard

功能:一键打开剪切板中存在的URL。(重视URL中只能有英文数字标点,倘若有中文可能没法被识别)。快捷键:alt + shift +K(先复制好单个多个URL)

设置:打开选项设置,选取好下载文件自动保留的位置(我这儿选取了桌面,你能够单独创建一个文件夹,好对批量下载的文件进行归类)

【表格处理】:Microsoft Office 2013 Excel

【文本处理】:Notepad++

【批量处理】:Windows自带命令提示符

起始讲解啦】

来到百度站长工具链接分析。咱们看到有两大板块,死链分析与外链分析。

1、咱们能够先看一下外链分析。

分析外链数据的重点目的是,找出垃圾外链,主动去封堵垃圾外链可能对网站导致卑劣影响。最后目的:1、找到垃圾外链的域名,进行防盗链处理(针对源自为垃圾域名的,直接返回404状态码);2、处理站内可能存在问题的页面。

这儿,我会重点讲解第1点;第二点比较简单,我会讲解得比较粗略。

1、定位出垃圾域名。

图注:能够看到这是一个显著不正常的趋势图

咱们能够下载外链数据,来进行初步分析。

图注:下载得到的表格文件(csv逗号分隔符)

然则这般一份原始数据,是很难进行分析的。因此呢咱们需要根据必定规律对其进行分析——便是根据【被链接的网页url】进行归类

首要咱们能够快速浏览一下,进行直观判断,这些页面大部分是什么页面呢?

针对咱们网站的状况来讲,外链数据分为两类,正常外链与垃圾外链。

而垃圾外链又分为两种:站内搜索结果页面(垃圾搜索词)以及被黑客入侵移植的黑链(已然处理为死链)。

咱们进行数据处理的目的有两个:识别出那些是正常外链,那些是垃圾外链,并按照垃圾外链的关联数据,进行有些处理,守护好网站;并且需要使被垃圾链接指向的页面,不被搜索引擎抓取(浪费抓取资源配额)以及被收录/索引(保准网站词库不受污染,不为网站带来形象与关键词方面的消极影响)。

第1步,筛选出网站的搜索结果页面

图注:筛选数据、复制到新的sheet中,删除原始sheet中的筛选数据,来归类数据

还有几类搜索链接格式,都以相同方式进行处理。

而后把原始sheet中剩下的数据进行去重(空白行),得到剩余的链接信息。

图注:对剩余数据进行简单的去重处理。

而后咱们需要对黑链进行筛选。黑链的数据,通常需要先从网站日志中分析得到(这般是最全面的,为了保准效率,会需要运用到shell脚本来自动运行,然则触及篇幅太多,我将在以后的专题中进行讲解)。

当然能够对表格中【被链接的网页url】这一列根据次序排序后,挨着分析得到(自己去打开,同期黑客会运用有些特殊手段,妨碍咱们去识别真正的会被搜索引擎识别到的垃圾内容,最平常状况便是运用js这般咱们经过浏览器拜访时,会看到完全不同样的内容,而搜索引擎抓取时,则下载到了垃圾内容。)

此时咱们需要运用一款firefox插件【No Script】,旨在屏蔽网站上的js,看到与搜索引擎类似的内容。

图注:屏蔽浏览器中java script的插件

另一还有一种不是很可靠的甄选办法,在搜索引擎里面去搜:【site:域名 博彩】之类的关键词,把不符合网站预期的关键词拿去搜,就能够得到非常多链接了。(这儿需要运用有些办法,把链接全都批量导出,在今后的专题中,我会继续讲解的)

筛选过程我就只能省略啦,能够结合视频看一看。

图注:筛选出来的网站黑链

咱们因此要这么辛苦地找出垃圾外链,目的便是要把这些垃圾外链的域名记录下来,避免这些垃圾域名被黑客重复利用,拿去制作新的垃圾链接,从而在第1时间拒绝掉这些垃圾外链,使百度蜘蛛从垃圾外链拜访咱们网站上内容时,没法获取到任何信息(便是返回404状态码,被识别成死链),久而久之,这些垃圾域名的权重就会越来越低(由于导出了死链,影响搜索引擎的正常抓取工作),这般咱们不仅守护了自己,处罚了敌人。

详细办法是,把垃圾页面找出来——从搜索结果页面和黑链的两个sheet中,把外链页面整合到一块。如sheet3所示。

图注:合并垃圾外链页面

接下来的处理会运用到一款小工具,来快速获取这些链接的主域名。

https://www.benmi.com/getdomain.html

图注:将链接复制到左边红框里,点击本地提取,就会出此刻右侧红框

如此一来,咱们就得到了这些垃圾外链页面的主域名,咱们只需要在咱们服务器上配置一下防盗链,禁止refer(源自)为这些域名的拜访(返回404http状态码)就可

2、从站内对搜索结果页面进行处理(黑链处理我保存在下一次专题,由于海量结合linux的shell脚本):

权重比较高的网站的站内搜索,必定重视antispam(反垃圾)。倘若不加以防范的话,一旦被黑客利用,那样可能会导致海量搜索页面被百度抓取,黑客利用高权重网站的资源,快速做好黄赌毒行业的关键词排名。然则针对咱们网站来讲,则是噩梦般的打击。不作处理的话,可能会引起如下几方面的问题:浪费海量的蜘蛛抓取配额,去抓取垃圾页面;垃圾页面被搜索引擎收录,网站词库被黑客污染,使得网站的行业词和品牌词排名不睬想;对网站形象导致损失……等。

在进行这类反垃圾策略的时候,咱们需要关注四个方面:站内用户能够正常运用;不准许搜索引擎抓取这类页面;拒绝垃圾外链的拜访;页面上不得显现垃圾关键词。

既然有了知道目的那样相应的应对方法就出来了,那便是

A 限制源自,拒绝掉所有非站内源自的搜索

B 页面上的TKD等关键位置,不对搜索词进行调用

C 指定敏锐词库过滤规则,将敏锐所有替换为星号*(有必定技术研发需求

D 在robots.txt声明,不准许抓取

E 在页面源代码head区间添加meta robots信息,声明该页面不准许创立索引(noindex)

进行以上处理,能够处理掉大部分站内搜索页面(不局限于该类页面,乃至其他的页面只要不期盼搜索引擎抓取以及创立索引的话,都能够这般处理)容易显现的问题。

2、咱们再来看一下死链分析。

死链,在站长工具的死链提交工具的帮忙文档中已然有详尽的阐释,我仅仅进行有些弥补就可

死链通常有如下几种:内部死链、外边死链。

内部死链,便是咱们网站上显现的,因为种种原由使得百度蜘蛛抓取链接时,没法获取到内容而被识别的死链。大部分状况下,针对咱们来讲,这种死链是能够经过有些方式进行避免的,因此呢是可控的。同期因为链向死链的页面,都是咱们网站上的页面,并且链出了死链的页面,对搜索引擎非常不友好,因此即时处理的话,极有可能使搜索引擎没法顺利地对网站上有价值页面进行抓取,从而间接引起“局部降权”(抓取有些页面的周期变得越来越长,快照更新缓慢,排名上不去之类)。

内部死链问题比较严重,因此应当优先处理内部的死链。

咱们能够放慢地百度站长工具中获取死链数据,并根据必定规律方式进行整理和划分,定位问题,接下来我将围绕进行死链数据分析进行讲解。

经过在页面上对死链信息进行预览,谁都会,我就不需要太多说明了。而死链问题,不需要每日都去下载表格进行分析,而只需要每日大致看一下数据,是不是有突然显现的死链,找到原由并处理(通常大范围显现,比较容易被察觉到,是需要紧急处理的);其次咱们需要定时进行一次较为彻底的死链数据分析,瞧瞧是不是有平时关注到的死链问题(通常显现范围小,会比较难以察觉,然则任由其长时间发展下去的话,可能会导致大问题)。

图注:通常忽然显现海量死链,很容易被察觉,比较好确定原由

图注:这是初期定位到的问题,虽然提交了处理意见,但被程序员忽略掉,而后近期忽然爆发出来,因此呢即使小问题,应当导致足够注重因为出现后处理即时显现过于严重的问题)

接下来,我来简单说一下,批量下载百度站长工具中的死链数据,以及合并数据进行统一处理。

内链死链(子域名A指向子域名A)和链出死链(子域名A指向子域名BCD……),通常来讲比较容易分析,咱们来针对链入死链(子域名BCD……指向子域名A)来进行有些批量处理吧。

图注:能够对数据进行下载,格式为csv(逗号分隔符),能够方便地运用excel进行处理;并且下方有官方的帮忙文档。

这儿,你能够试着点击【下载数据】,这般火狐浏览器就会自动把文件下载到你设置好的位置。

这儿告诉大众一个小技巧,能够点击下载列表中的对应文件,复制下载链接,而后粘贴出来。

http://zhanzhang.baidu.com/inbound/deadlist?site=http://www.abc.com/&download=1&type=3&day=2016-02-30&f=dead_link&key=

相信长得帅的伴侣已然看出来了,site=http://www.abc.com/便是指定你的网站域名,而day=2016-02-30便是指定你需要的日期了。type=3便是指定下载【链入死链】的数据,而type=2是链出死链,type=1是内链死链。而其他参数不需要做太多认识

脑洞大开的伴侣必定会想,倘若我把日期参数做一下处理,是不是能够批量地直接下载这些文件了呢?没错,能够的。这儿你需要借助一下excel强大的功能。

先手动做好两行URL,而后选中,左键按住从右下角,往下拉你就发掘excel已然自动帮你对URL进行了补完。非常方便。

松开左键,就得到了想要的结果

而后,你就能够复制下这些URL,而后到火狐浏览器中,用咱们之前安装好的Launch Clipboard插件,运用其快捷键alt + shift +K批量打开上图中的链接,而后咱们的火狐浏览器就会自动把这些文件下载存储到咱们指定好的位置。

来,咱们看一看收获的成果吧:

好似能够的样子哦?然则,这么多表格难道要我一个一个地打开吗?

当然不。咱们来看一看某一个表格长什么样子吧。看到了吗?这儿有记录时间的。

便是说,倘若咱们能想办法把这些文件都合并起来的话,是有办法区分日期的。

好吧,说干就干。

(1)打开你的命令提示符:Windows + R,输入cmd,回车

(2)在命令提示符中,输入cd再敲入空格,再到保留csv文件的位置,去把文件夹全部拖拽到命令提示符中,就可自动补完路径。

倘若不输入cd空格的话,会报错,如下图。(cd的意思是目录到指定目录)

当成功后,你就能够把csv文件都合并起来啦,输入命令:

copy *.csv..\ok.csv

意思是,拷贝出所有以后缀名为csv的文件,输出到上一级目录下的ok.csv文件中。

这般就完成为了合并。

咱们打开ok.csv瞧瞧?接下来就能够进行简单的去重处理。

图注:简单去重后,咱们依然能够大致浏览一下。

咱们发掘,死链前链中,有许多来自于区别域名的类似目录下的页面。咱们不妨把这些页面单独存起来。

图注:筛选出所有zx123.cn子域名下包括xiaoqu目录的页面

而后咱们发掘,还有有些包括baidu.com/的页面,这些页面通常是经过推送数据来进行抓取的,因此暂时归类到一边。

图注:百度的抓取数据

剩下的数据中,还剩下外边死链,而外边死链中还包括有些垃圾链接,咱们需要把这些垃圾链接找出来。

图注:根据死链链接排序

把垃圾死链单独归为一类,剩下的就是真正的外链死链了。

图注:检验成果的时候到啦。

咱们把数据根据必定规律关系分成为了四类,分别是【外边死链】【垃圾链接】【百度】【子域名(属于内部死链)】

咱们需要重点关注的是,【子域名】显现的死链。由于子域名咱们的网站的一部分啊,这些页面上显现了死链,势必对这些页面的SEO效果有害,需要尽快知道原由

经过与技术分部沟通,我确认到该类问题显现原由重点咱们网站的服务器之间同步数据时不成功,服务器之间连接偶然断开导致。这类问题暂时难以避免,因此呢只能让技术人员将由于这种状况显现的404(永久不可拜访)状态码改为返回503(临时不可拜访)状态码了。

而【百度】显现的死链,理由和上面的一致。只不外蜘蛛的抓取途径,是来自于主动推送方式。返回503状态码后,状况有所改善。

【垃圾链接】,我已然在外链分析中做出过必定程度的说明了,能够参考一下。

外边死链】,这个其实能够不必过于关注,会受到死链影响的不是咱们网站,而是导出了死链的网站。然则有时候分析瞧瞧,总能发掘有些有趣的现象。

比方说,我此刻看到的数据的共性是,死链链接都不完整,要么中间用点号来省略了,要么尾部被强行截断了。咱们打开死链前链,发掘死链链接是做为明链接(无锚文本)出此刻页面上。而死链前链的页面,大都数都类似于搜索引擎结果页面,并且这些结果页面上对锚链接都以nofollow进行了掌控

图注:这些都是垃圾搜索引擎,目的是抓取其他网站的信息为己所用,制造垃圾站群

能够看出,【垃圾链接】和【外链死链】中的大部分,依然是抱着恶意目的而来的。此时咱们可能就需要思虑运用反爬虫策略,来禁止有些垃圾搜索引擎对咱们网站进行恣意妄为的抓取行径了。(关于反爬虫策略专题,我将来打算尝试一下)

好啦,这期的内容差不多便是这般咱们来总结一下吧。

(1)分析链接数据的目的:保准搜索引擎对网站正常抓取和索引;防止被恶意人士利用而受到损失。

(2)分析链接数据的手段:有些工具,再加上简单的规律

(3)养成良好工作习惯与认识每日大致关注一下这些数据,定时仔细分析一下数据,对这些环节有掌控地进行操作。

更加多SEO知识,请点击阅读:

SEO实战 | 手把手教你做好站内优化

百度搜索(SEO)移动站友好度诠释(四维度)





上一篇:怎么样将死蜘蛛改造为可怕的爪型抓取器
下一篇:Zac:爬行、抓取、索引、收录,指的都是什么?
回复

使用道具 举报

5

主题

662

回帖

163

积分

注册会员

Rank: 2

积分
163
发表于 2024-9-2 12:46:14 | 显示全部楼层
你的见解独到,让我受益匪浅,期待更多交流。
回复

使用道具 举报

3062

主题

3万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99139046
发表于 2024-10-5 13:12:26 | 显示全部楼层
楼主的文章非常有意义,提升了我的知识水平。
回复

使用道具 举报

3121

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99108633
发表于 2024-10-8 15:51:04 | 显示全部楼层
我完全同意你的看法,期待我们能深入探讨这个问题。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|外链论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 06:53 , Processed in 0.238979 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.