Python爬虫教程，爬取网易云的音乐-外链论坛

tw4ld6 发表于 2024-10-26 16:43:43

Python爬虫教程，爬取网易云的音乐

在起始之前，做一点小小的说明哈：
我只是一个python爬虫兴趣者，倘若本文有侵权，请联系我删除！本文需要有简单的python爬虫基本，重点用到两个爬虫模块（都是常规的）requests模块selenium模块意见运用谷歌浏览器，方便进行抓包和数据获取。私信博主01就可获取海量Python学习资料
<h1 style="color: black; text-align: left; margin-bottom: 10px;">Part1进行网页分析</h1>
首要打开网易云的网页版网易云而后搜索歌曲，这儿我就搜索一首锦零的“空山新雨后”

<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/f04c833fb57f4e5f9cd33c65f98a8c2d~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729477209&x-signature=wmRTqZUoa9U3IPH8aB0s41PKJo4%3D" style="width: 50%; margin-bottom: 20px;"></div>
此时咱们来观察网页的url，能够发掘s=后面便是咱们搜索的关键字
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/620805a2c2a243779883237a19fbc2b6~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729477209&x-signature=zTNEMr8LqDDCc5OOB%2FMnUbgpQmE%3D" style="width: 50%; margin-bottom: 20px;"></div>
当咱们换一首歌，会发掘亦是这般的，正好验证了咱们的想法

<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/a775d722db664853af13e18cd9a49283~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729477209&x-signature=mVGqlIT6clhqiDlM06r70myz5V8%3D" style="width: 50%; margin-bottom: 20px;"></div>
因此下一步让咱们点进去一首歌，而后进行播放，瞧瞧能否直接获取音乐文件的url，倘若能，那样直接对url进行requests.get拜访，咱们就能拿到.mp3文件了
点进第1首“空山新雨后”，咱们能够看到有一个“生成外链播放器”

<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/364cb78c77c949ecbacb13e6d3776727~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729477209&x-signature=2eMWhDuHUQgWf956IZ9IIe9ukNg%3D" style="width: 50%; margin-bottom: 20px;"></div>
看到这个，我心中一阵激动，仿佛就要大功告成；于是我满怀开心的点了一下，结果。。。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/75a6123ac70a4f7899f33b876b4388d1~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729477209&x-signature=AyeEdfH8jo5J5AzVdEPT4%2ByVTG0%3D" style="width: 50%; margin-bottom: 20px;"></div>
好吧，不外咱们不可放弃，来咱们分析一下网页
但当咱们定位到两个最有可能显现外链的地区时，发掘什么都无

<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/1526a6cd61a74940894bdfd0b4cdfdd3~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729477209&x-signature=N7WHxduuPTKh3%2FOgILo3MtzUSrA%3D" style="width: 50%; margin-bottom: 20px;"></div>
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/b7f7db8fbbd64f4bad9f9a50c0d77052~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729477209&x-signature=MAKF%2FkZvK2W3y0ID7TKGODmZzVo%3D" style="width: 50%; margin-bottom: 20px;"></div>
不外做为“规格严格，功夫到家”的传承者，我不可放弃啊，于是我又打开了抓包工具
根据常规招数，咱们定位到XHR

<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/ed22d469639a406d8c1ef0325c75e49a~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729477209&x-signature=QgXEsgmwhiuBGxCjzIRtWVWPzko%3D" style="width: 50%; margin-bottom: 20px;"></div>
点击播放后，显现了一大堆东西，咱们要做的便是找到其中的content-type为audio一类的包
功夫不负有心人，在寻找了一（亿）会儿后，我找到了

<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/db5845fac4ed4b24aee34ad100e94483~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729477209&x-signature=H36Dk8PnaG0FLVwkp33gcBtRjUM%3D" style="width: 50%; margin-bottom: 20px;"></div>
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/86142f342ea1447b8704611b2652858c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729477209&x-signature=DsQx4FJRNTUTWmBuDS6ikD1EIwo%3D" style="width: 50%; margin-bottom: 20px;"></div>
于是我又满怀开心的复制了这个包对应的Request-URL粘贴后拜访这个url，结果非常满意，这便是我始终在找的url

<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/7c8e85b1a9c14b4d815427d3baabd415~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729477209&x-signature=NCE2eLoHDXElRmUY5yHfcr1PC3E%3D" style="width: 50%; margin-bottom: 20px;"></div>
此刻我把那个url贴出来https://m10.music.126.net/20200715163315/a075d787d191f6729a517527d6064f59/ymusic/0552/0f0e/530f/28d03e94478dcc3e0479de4b61d224e9.mp3
<h1 style="color: black; text-align: left; margin-bottom: 10px;">Part2 编写爬虫程序</h1>
接下来就超级简单了下面的代码是最常规的操作，应该有爬虫基本的都能看懂；倘若有不懂的，注释都在上面
#导入requests包
import requests

#进行UA伪装
headers = {
User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36
}

#指定url
url = https://m10.music.126.net/20200715163315/a075d787d191f6729a517527d6064f59/ymusic/0552/0f0e/530f/28d03e94478dcc3e0479de4b61d224e9.mp3

#调用requests.get办法对url进行拜访，和持久化存储数据audio_content = requests.get(url=url,headers=headers).content#存入本地
with open(空山新雨后.mp3,wb) as f :
f.write(audio_content)

print("空山新雨后爬取成功！！！")<h1 style="color: black; text-align: left; margin-bottom: 10px;">Part3 更高级的</h1>
看到这儿，你可能会想，为啥基本没用selenium模块呢？能不可直接爬取任何一首我想要的歌，而不消每首都去费心费力的找一个url呢？当然能够哒！其实网易云在线播放每首歌曲时，都有一个外链位置，这是不会变的，跟每首歌的独一一个id绑定在一块，每首歌audio文件的url如下：
url = http://music.163.com/song/media/outer/url?id= + 歌曲的id值 + .mp3
id值的获取亦很简单，当咱们点进每首歌时，上方会显现对应的网址，那里有id值，如下图：

<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/51ba1655690f4458ab5aeca5eb94248f~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729477209&x-signature=zDYMA9U%2FNXvl4Q3JBi%2BH5lIGqqM%3D" style="width: 50%; margin-bottom: 20px;"></div>
因此只需把上面程序中的url改成新的url就可
倘若还想要更好的体验效果，实此刻程序里直接搜索歌曲，拿到id值，就需要用到selenium模块
为何用selenium而不消xpath或bs4？由于搜索页面的数据是动态加载出来的，倘若直接对搜索页面的网页进行数据解析，就拿不到任何数据；以我日前的技术，就只能想到运用万能的selenium模块，下面大概说明一下过程：
进行selenium无可视化界面设置fromselenium.webdriver.chrome.optionsimport Options

chrome_options = Options()
chrome_options.add_argument(--headless)
chrome_options.add_argument(--disable-gpu)导包import requests
import re
from selenium import webdriver
from time import sleep指定歌曲，得到对应搜索页面的urlname = input(请输入歌名：)

url_1 = https://music.163.com/#/search/m/?s= + name + &type=1获取搜索页面的html文件#初始化browser对象
browser = webdriver.Chrome(executable_path=chromedriver.exe,chrome_options=chrome_options)#拜访该url
browser.get(url=url_1)

#因为网页中有iframe框架，进行切换
browser.switch_to.frame(g_iframe)

#等待0.5秒
sleep(0.5)

#抓取到页面信息
page_text = browser.execute_script("return document.documentElement.outerHTML")

#退出浏览器
browser.quit()用正则模块re匹配html文件中的id值、歌名和歌手ex1 = <a.*?id="(*?)"
ex2 = <b.*?title="(.*?)">
ex3 = class="td w1"><div.*?class="text"><a.*?href=".*?">(.*?)</a></div></div>

id_list = re.findall(ex1,page_text,re.M)[::2]

song_list= re.findall(ex2,page_text,re.M)singer_list = re.findall(ex3,page_text,re.M)将id值、歌名和歌手封装成一个个元组，写入一个列表中，再进行打印li = list(zip(song_list,singer_list,id_list))

for i in range(len(li)):
print(str(i+1) + . + str(li),end=\n)对满意的id值可得到一个url，再用上面的程序对该url进行requests.get办法拜访就可
<h1 style="color: black; text-align: left; margin-bottom: 10px;">Part4 小结</h1>
终究是我才疏学浅，这个找外链进行爬取的办法亦存在非常多不足，例如不可在线播放的歌曲是没法下载的。不外写这样一个小程序练练手，对自己能力的加强确是有极重帮忙的。

4lqedz 发表于 2024-10-28 18:16:45

你的见解真是独到，让我受益良多。

页: [1]

外链论坛's Archiver

Python爬虫教程，爬取网易云的音乐