外链论坛

 找回密码
 立即注册
搜索
查看: 52|回复: 0

Linux/Nginx怎么样查看搜索引擎蜘蛛爬虫的行径

[复制链接]

2609

主题

254

回帖

9912万

积分

论坛元老

Rank: 8Rank: 8

积分
99120668
发表于 2024-8-25 17:18:07 | 显示全部楼层 |阅读模式

做好网站seo优化的第1便是首要让蜘蛛爬虫经常来你的网站进行光临,下面的Linux命令能够让你清楚的晓得蜘蛛的爬行状况。下面咱们针对nginx服务器进行分析,日志文件所在目录:

/usr/local/nginx/logs/access.log,access.log这个文件记录的应该是近期一天的日志情况,首要瞧瞧日志体积倘若很大(超过50MB)意见别用这些命令分析,由于这些命令很消耗CPU,更新下来放到分析机上执行,以避免影响网站的速度。

Linux shell命令

1. 百度蜘蛛爬行的次数

cat access.log | grep Baiduspider | wc

最左面的数值表示便是爬行次数。

2. 百度蜘蛛的仔细记录(Ctrl C能够终止)

cat access.log | grep Baiduspider

能够用下面的命令:

cat access.log | grep Baiduspider | tail -n 10

cat access.log | grep Baiduspider | head -n 10

只看最后10条或最前10条,这用就能晓得这个日志文件的起始记录的时间和日期。

3. 百度蜘蛛抓取首页的仔细记录

cat access.log | grep Baiduspider | grep “GET / HTTP”

百度蜘蛛好似对首页非常热爱每一个钟头都来光临,而谷歌和雅虎蜘蛛更喜欢内页。

4. 百度蜘蛛派性记录时间点分布

cat access.log | grep “Baiduspider ” | awk ‘{print $4}

5. 百度蜘蛛爬行页面按次数降序列表

cat access.log | grep “Baiduspider ” | awk ‘{print $7} | sort | uniq -c | sort -r

文中的Baiduspider 改成Googlebot都能够查看谷歌的数据,鉴于大陆的特殊性,大众应该对百度的log更为关注。

附:(Mediapartners-Google)Google adsense蜘蛛的仔细爬行记录

cat access.log | grep Mediapartners

Mediapartners-Google是什么呢?Google adsense宣传因此能与内容关联由于每一个包括着adsense的宣传拜访后,火速就有个Mediapartners-Google蜘蛛来到这个页面,因此几分钟后再刷新就能表示关联宣传了,真厉害啊!

ps:linux下nginx怎样启用网站日志,查看蜘蛛爬虫

默认的路径是你安装时候指定的

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|外链论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-9-17 03:42 , Processed in 0.481774 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.