21个Python爬虫开源项目代码，包含微X、淘宝、豆瓣、知乎、博客等

nykek5i · 发表于 2024-7-2 03:30:52

今天为大众整理了23个Python爬虫项目。整理的原由是，爬虫入门简单快速，亦非常适合新入门的小伙伴培养自信心，所有链接指向GitHub，微X不可直接打开，老规矩，能够用电脑打开。

基于搜狗微X搜索的微X公众号爬虫接口，能够扩展成基于搜狗搜索的爬虫，返回结果是列表，每一项均是公众号详细信息字典。

部分代码截图：

能够爬下豆瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可方便大众筛选搜罗，例如筛选评估人数>1000的高分书籍；可依据区别的主题存储到Excel区别的Sheet ，采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行径，避免爬虫被封。

部分代码截图：

此项目的功能是爬取知乎用户信息以及人际拓扑关系，爬虫框架运用scrapy，数据存储运用mongo

部分代码截图：

总数据数：20119918，抓取字段：用户id，昵叫作，性别，头像，等级，经验值，粉丝数，生日，位置，注册时间，签名，等级与经验值等。抓取之后生成B站用户数据报告。

部分代码截图：

情迷布拉格 · 发表于 2024-9-1 10:59:35

顶楼主，说得太好了！

1fy07h · 发表于 2024-10-9 02:28:17

谷歌外链发布 http://www.fok120.com/

4zhvml8 · 发表于 2024-10-21 04:58:43

你的见解真是独到，让我受益良多。

wrjc1hod · 发表于 2024-11-9 13:34:09

软文发布平台 http://www.fok120.com/

		自动登录	找回密码
密码			立即注册