什么是“爬虫”？

j8typz · 发表于 2024-8-25 17:32:38

大众都晓得，互联网是由于海浪形成的，由于人人都能够在里面冲浪。

但非常多人不晓得的是，相比于浪花，互联网上最多的东西，其实是爬虫。

言下之意便是你的网线生虫了。

爬虫其实是一门计算机中的技术，它被广泛应用于搜索引擎。

平常的搜索引擎有百度、Google、Bing等。

搜索引擎的工作原理大致分为爬取信息、存储、创立索引、排序、检索等环节，其中第1周期便是运用专用程序收集网页数据，这个程序一般叫作为蜘蛛（Spider）或爬虫（Crawler）。

搜索引擎从已知的数据库出发，拜访这些网页并抓取文件。

搜索引擎经过这些爬虫从一个网站爬到另一个网站，跟踪网页中的链接，拜访更加多的网页，这个过程叫作为爬行，这些新的网址会被存入数据库等待搜索。

简而言之，爬虫便是经过不间断地拜访互联网，而后从中获取你指定的信息并返回给你。

而咱们的互联网上，随时都有没有数的爬虫在爬取数据，并返回给运用者。

除了搜索引擎，爬虫还能够完成非常多别的事情。

2018年春运时期，12306网站拜访量的日峰值一度达到了1500亿，平均每一个中国人一天拜访了近100次12306网站。

可是你转念一想，就算是抢票，好似亦没见过谁一天上一百多次12306啊！

其实12306超高拜访量的幕后黑手，便是传说中的

当你在抢票APP上点击抢票软件过后，APP上就会表示抢票次数。

事实上，APP每抢一次票就等于是利用爬虫拜访了一次12306。

倘若有余票的话，它就直接帮你拍下。

倘若没有余票，那就过一会儿再来。

此时的爬虫就像一个死皮赖脸的油腻男，傍着12306这个如花似玉的小姑娘死活不撒手。

爬虫：美女，有票吗~~~？

12306：无，滚！

几秒钟过后···

爬虫：美女，有票吗~~~？

12306：无，滚！

几秒钟过后···

爬虫：美女，有票吗~~~？

12306：无！！滚啊！！！

······

而这般的搭讪，春运的时候一天要出现1500亿次。

12306：老娘真难。

亦正是这个原由，12306的服务器有着近乎恐怖的抗压能力。

每年双十一的时候，阿里巴巴都如临大敌，但淘宝双十一上亿的拜访量跟12306的1500亿比起来还是差了非常多。

况且每年双十一就一天，春运却有整整一月！

12306：老娘太难了！！

即便如此，每年双十一刚起始的时候，淘宝偶尔还是会显现卡顿、断网的现象。

事实上，针对绝大都数网站和APP来讲，能够同期保准上百万用户的无压力运用就已然很不错了，上亿拜访量的状况基本上都不存在。

因此呢爬虫的爬取功能不仅能够获取数据，还能够做为一种攻击方式，让一个网站在短期内拜访量激增，从而引起网站崩溃。

因此人们不得不制订了关联的法律法规，限制人们对爬虫的运用。

而咱们在登录网站时输入的各样各样的奇葩验证码，在某些方面亦是为了增多爬虫拜访网站的难度。

可是再严格的规范，亦防不住有些头铁的犯罪分子，以及···技术小白。

早在博主还在读书的时候，就已然听过无数的悲剧。

非常多小白刚学会编写爬虫，就兴致勃勃地丢到了网络上准备试一试水。

然而有些人在研发的时候却忘了给爬虫设定一个拜访频率，结果爬虫顿时化身加特林菩萨，以毫秒为单位疯狂拜访目的网站，对目的网站进行了一场理学超度。

最后的结果除了目的网站崩溃，还有便是看守所里又多了一个秃头程序员。

亦许正是由于这些悲剧太多吧，博主的下一届学弟学妹们就多了一堂课——信息安全法律基本···

随着人工智能的发展，爬虫识别白百合和王珞丹的能力可能比人类还要强，各大网站的验证码亦是因此呢越来越繁杂。

但其实每一个技术诞生之初都是无罪的，无奈有些人拿着这些技术去做有些违法的勾当，使得技术本身亦再也不纯洁。

而对技术的污染，最后的恶果还是得由咱们自己吃下。

12306不得不耗费更加多的精力研发新技术来屏蔽抢票软件，并且自己研发出了候补购票的功能，来满足大众的抢票需要。

各大网站的研发人员亦不得不耗费海量精力研发各样新奇的验证码，而用户亦不得不花费更加多的时间去解锁验证码。

而这种技术带来的便利和痛苦并存的状态，将始终伴同着人类文明···

nqkk58 · 发表于 2024-10-8 10:42:32

我赞同你的看法，你的智慧让人佩服，谢谢分享。

m5k1umn · 发表于 2024-11-13 11:28:47

回顾历史，我们不难发现：无数先辈用鲜血和生命铺就了中华民族复兴的康庄大道。

wrjc1hod · 发表于 5 天前

对于这个问题，我有不同的看法...

		自动登录	找回密码
密码			立即注册