外链论坛

 找回密码
 立即注册
搜索
查看: 26|回复: 1

Python爬虫教程,爬取网易云的音乐

[复制链接]

3026

主题

155

回帖

9923万

积分

论坛元老

Rank: 8Rank: 8

积分
99239027
发表于 2024-10-26 16:43:43 | 显示全部楼层 |阅读模式

起始之前,做一点小小的说明哈:

我只是一个python爬虫兴趣者,倘若本文有侵权,请联系我删除!本文需要有简单的python爬虫基本重点用到两个爬虫模块(都是常规的)requests模块selenium模块意见运用谷歌浏览器,方便进行抓包和数据获取。

私信博主01就可获取海量Python学习资料

Part1进行网页分析

首要打开网易云的网页版网易云

而后搜索歌曲,这儿我就搜索一首锦零的“空山新雨后”

此时咱们来观察网页的url,能够发掘s=后面便是咱们搜索的关键字

咱们换一首歌,会发掘这般的,正好验证了咱们的想法

因此下一步让咱们点进去一首歌,而后进行播放,瞧瞧能否直接获取音乐文件的url,倘若能,那样直接对url进行requests.get拜访咱们就能拿到.mp3文件了

点进第1首“空山新雨后”,咱们能够看到有一个“生成外链播放器”

看到这个,我心中一阵激动,仿佛就要大功告成;于是我满怀开心的点了一下,结果。。。

好吧,不外咱们不可放弃,来咱们分析一下网页

但当咱们定位到两个最有可能显现外链的地区时,发掘什么都

不外做为“规格严格,功夫到家”的传承者,我不可放弃啊,于是我又打开了抓包工具

根据常规招数咱们定位到XHR

点击播放后,显现了一大堆东西,咱们要做的便是找到其中的content-type为audio一类的包

功夫不负有心人,在寻找了一(亿)会儿后,我找到了

于是我又满怀开心的复制了这个包对应的Request-URL

粘贴后拜访这个url,结果非常满意,这便是始终在找的url

此刻我把那个url贴出来

https://m10.music.126.net/20200715163315/a075d787d191f6729a517527d6064f59/ymusic/0552/0f0e/530f/28d03e94478dcc3e0479de4b61d224e9.mp3

Part2 编写爬虫程序

接下来就超级简单了

下面的代码是最常规的操作,应该有爬虫基本的都能看懂;倘若有不懂的,注释都在上面 #导入requests包 import requests #进行UA伪装 headers = { User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36 } #指定url url = https://m10.music.126.net/20200715163315/a075d787d191f6729a517527d6064f59/ymusic/0552/0f0e/530f/28d03e94478dcc3e0479de4b61d224e9.mp3 #调用requests.get办法对url进行拜访,和持久化存储数据audio_content = requests.get(url=url,headers=headers).content#存入本地 with open(空山新雨后.mp3,wb) as f : f.write(audio_content) print("空山新雨后爬取成功!!!")

Part3 更高级的

看到这儿,你可能会想,为啥基本没用selenium模块呢?能不可直接爬取任何一首我想要的歌,而不消每首都去费心费力的找一个url呢?当然能够哒!

其实网易云在线播放每首歌曲时,都有一个外链位置,这是不会变的,跟每首歌的独一一个id绑定在一块,每首歌audio文件的url如下: url = http://music.163.com/song/media/outer/url?id= + 歌曲的id值 + .mp3

id值的获取很简单,当咱们点进每首歌时,上方会显现对应的网址,那里有id值,如下图:

因此只需把上面程序中的url改成新的url就可

倘若还想要更好的体验效果,实此刻程序里直接搜索歌曲,拿到id值,就需要用到selenium模块

为何用selenium而不消xpath或bs4?

由于搜索页面的数据是动态加载出来的,倘若直接对搜索页面的网页进行数据解析,就拿不到任何数据;以我日前的技术,就只能想到运用万能的selenium模块,下面大概说明一下过程: 进行selenium无可视化界面设置fromselenium.webdriver.chrome.optionsimport Options chrome_options = Options() chrome_options.add_argument(--headless) chrome_options.add_argument(--disable-gpu)导包import requests import re from selenium import webdriver from time import sleep指定歌曲,得到对应搜索页面的urlname = input(请输入歌名:) url_1 = https://music.163.com/#/search/m/?s= + name + &type=1获取搜索页面的html文件#初始化browser对象 browser = webdriver.Chrome(executable_path=chromedriver.exe,chrome_options=chrome_options)#拜访该url browser.get(url=url_1) #因为网页中有iframe框架,进行切换 browser.switch_to.frame(g_iframe) #等待0.5秒 sleep(0.5) #抓取到页面信息 page_text = browser.execute_script("return document.documentElement.outerHTML") #退出浏览器 browser.quit()用正则模块re匹配html文件中的id值、歌名和歌手ex1 = <a.*?id="([0-9]*?)" ex2 = <b.*?title="(.*?)"><span class="s-fc7"> ex3 = class="td w1"><div.*?class="text"><a.*?href=".*?">(.*?)</a></div></div> id_list = re.findall(ex1,page_text,re.M)[::2] song_list= re.findall(ex2,page_text,re.M)singer_list = re.findall(ex3,page_text,re.M)将id值、歌名和歌手封装成一个个元组,写入一个列表中,再进行打印li = list(zip(song_list,singer_list,id_list)) for i in range(len(li)): print(str(i+1) + . + str(li[i]),end=\n)对满意的id值可得到一个url,再用上面的程序对该url进行requests.get办法拜访就可

Part4 小结

终究是我才疏学浅,这个找外链进行爬取的办法存在非常多不足,例如不可在线播放的歌曲是没法下载的。

不外写这样一个小程序练练手,对自己能力的加强确是有极重帮忙的。
回复

使用道具 举报

2895

主题

2万

回帖

9997万

积分

论坛元老

Rank: 8Rank: 8

积分
99979615
发表于 2024-10-28 18:16:45 | 显示全部楼层
你的见解真是独到,让我受益良多。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|外链论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-9 04:54 , Processed in 0.069840 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.