Python爬虫之网站超清照片爬取-外链论坛

lbk60ox 发表于 2024-11-1 22:57:28

Python爬虫之网站超清照片爬取

缺不缺好看的桌面呢？这边来爬取网站超清照片吧
这次爬虫用到的网址是：
http://www.netbian.com/index.htm: 彼岸桌面.里面有非常多的好看壁纸，况且都是能够下载高清无损的，还比较不错，因此我就拿这个网站练练手。
做为一个初学者，刚起始的时候，无论的代码的质量怎样，总之代码只要能够被正确完整的运行那就很能够让自己开心的，如同咱们的游戏同样，能在短期内得到正向的反馈，咱们就会更有兴趣去玩。
学习亦是如此，只要咱们能够在短期内得到学习带来的反馈，那样咱们的针对学习的欲望亦是剧烈的。能够完整的完整此次爬虫程序的编写，那便是一个最大的收货，但其实我这里次过程中的收获远不止此。
好的代码其实应该拥有以下特性能够满足最关键的需要容易理解有充分的注释运用规范的命名无显著的安全问题经过充分的测试
就以充分的测试为例，经常写代码的就应该晓得，尽管都数时候你的代码无BUG,但那仅仅说明只是大都数状况下是稳定的，然则在某些要求下就会出错（达到出错要求，存在规律问题的时候等）。这是肯定的。至于什么原由，区别的代码有区别的原由。倘若代码程序都是一次就能完善的，那样咱们运用的软件的软件就不会经常更新了。其他其中的道理就不一一道说了，久而自知。好的代码通常拥有的5大特性1.便于守护
2.可复用
3.可扩展
4.强灵活性
5.健壮性
经过我的代码运行我发掘时间繁杂度比很强，因此呢这是我将要改进的地区，但亦不止于此。亦有非常多利用得不恰当的地区，至于存在的不足的地区就待我慢慢提高改进吧！
路过的大佬欢迎留下您宝贵的代码修改意见，
完整代码如下import os
import bs4
import re
import time
import requests
from bs4 import BeautifulSoup

def getHTMLText(url, headers):
"""向目的服务器发起请求并返回响应"""
try:
r = requests.get(url=url, headers=headers)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text,"html.parser")
return soup
except:
return ""

def CreateFolder():
"""创建存储数据文件夹"""
flag = True
while flag == 1:
file = input("请输入保留数据文件夹的名叫作：")
if notos.path.exists(file):
os.mkdir(file)
flag =False
else:
print(该文件已存在，请重新输入)
flag = True

# os.path.abspath(file) 获取文件夹的绝对路径path = os.path.abspath(file) +"\\"
return path

def fillUnivList(ulist, soup):
"""获取每一张照片的原图页面"""
# 使得得到的ul是 <class bs4.BeautifulSoup> 类型
div = soup.find_all(div, list)[0]
for a in div(a):
if isinstance(a, bs4.element.Tag):
hr = a.attrs[href]
href = re.findall(r/desk/\d{4}.htm, hr)
if bool(href) == True:
ulist.append(href[0])

return ulist

def DownloadPicture(left_url,list,path):
for right in list:
url = left_url + right
r = requests.get(url=url, timeout=10)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text,"html.parser")
tag = soup.find_all("p")
# 获取img标签的alt属性，给保留照片命名
name = tag[0].a.img.attrs[alt]
img_name = name + ".jpg"
# 获取照片的信息
img_src = tag[0].a.img.attrs[src]
try:
img_data = requests.get(url=img_src)
except:
continueimg_path = path + img_namewith open(img_path,wb) as fp:
fp.write(img_data.content)
print(img_name, " ******下载完成！")

def PageNumurl(urls):
num = int(input("请输入爬取所到的页码数："))
for i in range(2,num+1):
u = "http://www.netbian.com/index_" + str(i) + ".htm"
urls.append(u)

return urls

if __name__ == "__main__":
uinfo = []
left_url ="http://www.netbian.com"
urls = ["http://www.netbian.com/index.htm"]
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"
}
start = time.time()
# 1.创建保留数据的文件夹
path = CreateFolder()
# 2. 确定要爬取的页面数并返回每一页的链接
PageNumurl(urls)
n = int(input("拜访的初始页面："))
for i in urls:
# 3.获取每一个页面的首页数据文本
soup = getHTMLText(i, headers)
# 4.拜访原图所在页链接并返回照片的链接page_list = fillUnivList(uinfo, soup)# 5.下载原图
DownloadPicture(left_url, page_list, path)

print("所有下载完成！", "共" + str(len(os.listdir(path))) + "张照片")
end = time.time()
print("共耗时" + str(end-start) + "秒")运行
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p26-sign.toutiaoimg.com/pgc-image/1012d6827e7e4e50b307e9d668ffffb7~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729728483&x-signature=o4urO8nN5EYglQlkMek1O2hUURU%3D" style="width: 50%; margin-bottom: 20px;"></div>
部分展示结果如下：
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/6a8344b821d74ef4ab62594e11eeb2f6~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1729728483&x-signature=zrqKvSgpps8vkgPNKlhcYFdzkfE%3D" style="width: 50%; margin-bottom: 20px;"></div>
起学Python，一块写代码，加油！奥利给！！！

qzmjef 发表于 7 小时前

期待楼主的下一次分享！”

页: [1]

外链论坛's Archiver

Python爬虫之网站超清照片爬取