外链论坛

 找回密码
 立即注册
搜索
查看: 56|回复: 4

白杨:爬虫是什么?白话说说SEO好伴侣「爬虫」,你真的认识吗?

[复制链接]

2951

主题

182

回帖

9920万

积分

论坛元老

Rank: 8Rank: 8

积分
99209440
发表于 2024-8-25 10:27:10 | 显示全部楼层 |阅读模式

照片

本文大纲:

1、爬虫是什么?反爬虫又是什么?

2、爬虫有那些归类

3、爬中流程与搜索引擎工作流程

4、http/https协议与状态码

5、robots协议

爬虫是什么?反爬虫又是什么?

这儿的爬虫不是咱们生活中的爬虫,如蜘蛛。这儿的爬虫更加多指的是网络爬虫,即咱们叫它网页蜘蛛或网络设备人。当然,在seo里,叫网页蜘蛛更加多

网络爬虫,是一种根据必定规则,自动地抓取互联网上的信息的一种程序。他有一个英文名叫spider,例如百度网页蜘蛛就叫baiduspider,那搜狗的就叫Sogou spider。

咱们SEO人员做网站优化排名会听说的一个词。网站为啥没收录呢?原来蜘蛛没来抓取!怎样看这个爬虫蜘蛛朋友来没来呢,让技术把网站日志下载给咱们咱们能够判断了,你说算不算好伴侣

百度爬虫是什么?Baiduspider是啥?

Baiduspider是百度搜索引擎的一个自动程序,它的功效拜访互联网上的网页,创立索引数据库,运用户能在百度搜索引擎中搜索到网站上的网页。百度还有那些蜘蛛呢?如下图。最大都是圈中这个,记得哈~

照片

反爬虫是什么?

咱们以门户网站举例,企业网站同理哈。门户网站经过相应的策略和技术手段,防止爬虫程序进行网站数据的爬取,这就叫反爬虫。

当然,其实还有反反爬虫,即爬虫程序经过相应的策略和技术手段,破解了门户网站的反爬虫手段,从而爬取到相应的数据,这就叫反反爬虫。

再白话举例:你要来采集我的内容(爬虫),我不给你采并且我做防采集(反爬虫)。你呢,又搞了更高技术把我防采集攻破了采集(反反爬虫),这般理解了吧?

爬虫有那些归类

爬虫总共就分两类:通用爬虫与聚焦爬虫。

通用爬虫:简单说便是尽可能的把网上的所有的网页下载下来,放到服务器里再对这些网页做关联处理,最后给用户搜索用,一般指的搜索引擎爬虫。例如:谷歌爬虫、百度爬虫、搜狗爬虫、360爬虫等。

聚焦爬虫:它是按照指定的需要抓取网络上指定网站的数据。例如:获取知乎问答上的某一问题的浏览量和回答人数,而不是获取全部页面中所有数据。它能够理解叫特定爬虫。

上面说到的反爬虫与反反爬虫,基本上都是在反这种聚焦爬虫哈,你能够理解为爬虫攻防战哈哈哈。

爬中流程与搜索引擎工作流程

爬虫通常工作流程:确定某个URL——发送请求——响应内容——提取数据——保留数据。

搜索引擎蜘蛛工作流程:爬取网页——存储数据——数据预处理——供给用户搜索网页排名。

是不是感觉难理解?发送请求是什么,响应内容又是什么?这个往下看HTTP协议与状态看完你就懂了。

关于搜索引擎数据预处理在处理什么,怎么理解?看公众号白杨SEO两年前写过这篇《白杨SEO:大白话告诉你理解搜索引擎工作原理的道理和运用》,看完你就懂了。

http/https协议与状态码

HTTP协议指的是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网 WWW(World Wide Web缩写)服务器传输超文本到本地浏览器的传送协议。默认端口号:80。

而HTTPS (Secure Hypertext Transfer Protocol)安全超文本传输协议指的是HTTPS是在HTTP上创立SSL加密层,并对传输数据进行加密,是HTTP协议的安全版。默认端口号:443。

你是不是理解不了这个HTTP到底什么东东?简单白话来讲这个便是用来传输和接收页面的,保准你的电脑能快速传输文本文档并且让你看到哈。

至于HTTP的请求头,响应头,都是各样代码,白杨SEO就不在这儿写了,倘若你要真的想认识,自己去搜索,这儿只讲一下咱们SEO中会看到的HTTP请求响应状态码,通常状态码如下:

照片

上面只要是23开头都是好的,例如查白杨SEO博客的:

照片

照片

输入http://www.baiyangseo.com返回是301,而输入

https://www.baiyangseo.com 返回的是200正常的你晓得为何吗?

其实,这在SEO里来讲,是由于两个区别URL内容是一模同样,为了让搜索引擎避免认为作坏处因此做了301永久重定向。简单理解,你用不带s的HTTP那个域名打开便是这个带的了哈。

关于这个状态码,倘若你想学习认识更深入一点,一样能够白杨SEO公众号上这篇:《白杨SEO:SEO入门学习之搜索引擎蜘蛛与网站HTTP状态码》

robots协议

最后,来到针对搜索引擎网页蜘蛛robots协议了。这个倘若你是学SEO的,肯定要学的。

robots协议是什么?简单理解便是网站经过Robots协议告诉搜索引擎,网站上那些页面能够抓取,哪些页面不可抓取!然则,它仅仅是互联网中的一种约定罢了因此有些人说我明明禁止XXX蜘蛛还是被抓取了哈哈哈。

它长啥样?到底有什么用?

照片

长啥样,如上图,功效便是上面说的,在SEO里便是告诉蜘蛛来爬我这儿通常每一个站都会做这个,由于蜘蛛首要要爬取一个页面这个地区是最先爬取的,会反复爬取。

不要问我为啥要给蜘蛛爬取,你做一个网站目的是啥,不便是要让蜘蛛爬取而后用户搜索的时候看到你带来流量吗?当然,你说我做网站只是用来存储我自己看除外哈哈哈。

作者简介:

白杨SEO,专注SEO科研十年,SEO、流量实战派,对互联网精细流量有深入科研

回复

使用道具 举报

0

主题

1万

回帖

1

积分

新手上路

Rank: 1

积分
1
发表于 2024-9-25 11:53:14 | 显示全部楼层
期待楼主的下一次分享!”
回复

使用道具 举报

2948

主题

2万

回帖

9956万

积分

论坛元老

Rank: 8Rank: 8

积分
99569305
发表于 2024-9-30 08:21:16 | 显示全部楼层
“板凳”(第三个回帖的人)‌
回复

使用道具 举报

3046

主题

2万

回帖

9909万

积分

论坛元老

Rank: 8Rank: 8

积分
99098928
发表于 2024-10-18 03:05:44 | 显示全部楼层
楼主的文章非常有意义,提升了我的知识水平。
回复

使用道具 举报

3046

主题

2万

回帖

9909万

积分

论坛元老

Rank: 8Rank: 8

积分
99098928
发表于 2024-10-19 23:53:43 | 显示全部楼层
感谢你的精彩评论,为我的思绪打开了新的窗口。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|外链论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-9 00:53 , Processed in 0.085102 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.