看到某网友发表的一篇文章有300张漂亮图片后,发现一个网页慢慢地打开查看时间太久,保持太费事。零基础开始学习Python爬虫后发现何不使用爬虫自动下载保存在电脑里,后面想怎么看都方便。
贴上python 代码:
import requests
#导入urlopen 函数
from urllib.request import urlopen
#导入beautifullSoup
from bs4 import BeautifulSoup
#导入urlretrieve函数,用于下载图片
from urllib.request import urlretrieveTargeturl = 'https://xxx/htm_data/2010/7/4126408.html'# 隐去网站链接
neirong=requests.get(Targeturl)
neirong.encoding
if neirong.encoding == 'ISO-8859-1': # 测试网站连接是否正常
print('Website page connect succesfull!')
else:
print('Can not connect this target website page, please check')img_text = neirong.text
soup = BeautifulSoup(img_text,"html.parser")
img_infos = soup.find_all("img")
datas=[]
for i in img_infos:
if i.get('ess-data'):
img_url = i['ess-data']
elif i.get('src'):
img_url = i['src']
print(img_url)
datas.append(img_url)使用urlretrieve下载图片
urlretrieve(img_url)
经过多次调试,运行到最后Python 运行都是报error。相同的代码运行了其他网站是正常的。可能是smmimg.com 网站图片无法使用urlretrieve下载,最后只好把urlretrieve代码注释掉,改保存图片链接地址在txt文件中使用迅雷下载批量下载。
output = open('fc55url.txt','w',encoding='gbk')
for x in datas:
output.write(x)
output.write('\n')
output.close()
2022年12月20日 下午8:45 沙发
太给力了赶紧收藏