网站日志数据分析教程

u1jodi1q · 发表于 2024-7-4 01:40:23

网站日志的数据分析重点是运用关联工具进行，工具类型亦有非常多。

网页版能够用拉格好（www.loghao.com），桌面版能够用爱站或光年，亦能够运用shell分析日志。。。

分析日志的功效有非常多，能够概括几点：

1.认识蜘蛛对页面的抓取状况，恰当分配网站内链，优化抓取路径；

2.统计栏目页面的流量数据状况，对其做相应的策略调节（例如数据下降，能够分析原由，对另一一个栏目页面做AB测试进行观察等等）；

3.提取出404页面，提交给百度进行处理；

4.倘若是网站被黑，能够分析日志查看网站操作记录，以及找出假的百度蜘蛛IP等；

将日志文件下载至本地，我这儿是宝塔，通常在www根目录能够找到日志文件。

运用网页版功能有限，只能看出来蜘蛛的抓取数量和返回代码状况，如图：

关于蜘蛛数量那里应该都看得懂，顺便解释下上面表示的低权重IP和权重IP（大神略过，据述科普）。

据述，百度创始败兴，对蜘蛛是有归类的，有的蜘蛛专门抓取照片，有的专门抓取视频，有的专门抓取内容。。。。

这些ip统叫作为低权重ip（我亦不晓得哪里听来的），专门抓取新站或是低质量的页面，新站这里时期应该这个类型123.125.71.*的ip，来的频率会灰常多。

123.125.71.95

123.125.71.97

123.125.71.117

123.125.71.71

123.125.71.106

那倘若是一个老网站，这个频率的ip忽然增多，那就要重视了，很有可能在被K或是降权的边缘。。。。

这个ip上面表示隔日快照，意思便是被他抓取过的页面，不出意外次日都会被收录，或快照会有更新。

220.181.108.95

这些ip叫作为所说的“高权重ip”，即220.181.108.*，被她们抓取过的页面，收录速度和更新速度都会火速。

220.181.108.75

220.181.108.92

220.181.108.91

220.181.108.86

220.181.108.89

220.181.108.94

220.181.108.97

220.181.108.80

220.181.108.77

220.181.108.83

好的，ip段普及完了。。。。

在来瞧瞧左侧，能够看到一大串代码段。

其实咱们截取一个完整的字段是这般的：

123.125.71.12 - - [07/May/2019:11:21:56 +0800] GET /gzjysc/83.html HTTP/1.1 200 8274 - Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

一个个来看，都是什么意思。。。。

123.125.71.12：拜访的ip；

07/May/2019:11:21:56 +0800：拜访的时间段；

GET /gzjysc/83.html：拜访的URL；

HTTP/1.1：网站的请求协议；

200：网站返回状态码；

Baiduspider/2.0; +http://www.baidu.com/search/spider.html：暗示这是一个真实的百度蜘蛛；

ok，基本数据概念解释就到这儿，接下来瞧瞧从日志文件里能得到那些信息。

运用光年日志分析工具能够得出以下信息：

蜘蛛抓取量，百度抓取最多，其次是搜狗，发掘这儿居然无360的蜘蛛，去设置里添加个360 Spider重新分析就能够了。

目录最多的抓取数量表示，每一个蜘蛛抓取的目录次数是区别的，能够看到百度对/spmn/目录抓取最多，其实这个亦不意外。。。由于这个目录页面的重要词排名最好！

另一还能够瞧瞧404页面，把这些404的url放在一个txt文档里，取名silian，上传到根目录提交到百度站长平台就可。

其它的数据能够自己瞧瞧哈！

以上的办法针对分析普通的小公司站日志已然足够了，金花日志工具能够满足大部分的需求。

那针对有些日志文件比很强，不适合用工具的能够运用shell分析网站日志（以下纯属装X，能够略过）。

首要是打开日志文件。

分析蜘蛛抓取最多的页面：

cat your.log | grep Baiduspider/2.0 | awk {print $7} | sort | uniq -c | sort -nr | head -10

能够看出，还是/spmn这个页面抓取的最多。。。。接下来才是首页。

找了些非200状态码的页面url：

cat test.log | grep Baiduspider/2.0 | awk {if($9!="200"){print $7,$9}} | sort | uniq -c | sort -nr

能够看到有那些404、304等等状态的页面。。。。尤其是找出404页面，按照以上说到的办法进行处理。

忽然想到鲁迅先生说的：数据本身是没卵用的，分析数据，才是价值所在。

星☆雨 · 发表于 2024-8-22 21:18:13

在遇到你之前，我对人世间是否有真正的圣人是怀疑的。

364463952 · 发表于 2024-8-30 00:07:00

楼主继续加油啊！外链论坛加油！

Myramillan · 发表于 2024-9-9 02:24:14

软文发布论坛开幕式圆满成功。 http://www.fok120.com

7wu1wm0 · 发表于 2024-9-26 23:22:29

论坛的成果是显著的，但我们不能因为成绩而沾沾自喜。

wrjc1hod · 发表于 2024-10-27 17:21:33

谷歌外贸网站优化技术。

4zhvml8 · 发表于 2024-11-2 12:54:38

论坛是一个舞台，让我们在这里尽情的释放自己。

		自动登录	找回密码
密码			立即注册