本帖最后由 liyitong 于 2022-4-7 18:42 编辑
[Python] 纯文本查看 复制代码 import requests
from bs4 import BeautifulSoup as bsp
url=r'https://www.mlito.com/photo/girl/g_model/121112.html'
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:86.0) Gecko/20100101 Firefox/86.0"}
xiangying=requests.get(url=url, headers=headers)
soup=bsp(xiangying.content.decode('utf-8'), 'lxml')
imgs=soup.find_all('img')
def xiazai(img):
print("开始下载图片: %s"% img.split(r'/')[-1])
try:
pic=requests.get(img, timeout =100)
except requests.exceptions.InvalidURL:
print("无法下载")
fp=open(img.split(r'/')[-1], 'wb') #文件名
fp.write(pic.content)
fp.close()
print("下载成功")
for i in imgs:
i=str(i)
if "alignnone" in i:
kaishi= i.find("src")+5 # src=" 一共5个字符
jieshu= i.find("jpg")+3 # jpg 一共3个字符
img= i[kaishi:jieshu]
xiazai(img.replace('///', '//')) #网页本身用了http:/// 浏览器有自动纠错显示,但是爬虫没有
执行结果:
开始下载图片: 38-1.jpg
下载成功
开始下载图片: 40-1.jpg
下载成功
开始下载图片: 41.jpg
下载成功
开始下载图片: 42.jpg
下载成功
开始下载图片: 43.jpg
下载成功
开始下载图片: 44.jpg
下载成功
开始下载图片: 45.jpg
下载成功
开始下载图片: 46.jpg
下载成功
开始下载图片: 47.jpg
下载成功
开始下载图片: 48.jpg
下载成功
开始下载图片: 49.jpg
下载成功
开始下载图片: 50.jpg
下载成功
开始下载图片: 51.jpg
下载成功
开始下载图片: 52.jpg
下载成功
开始下载图片: 53.jpg
下载成功
开始下载图片: 54.jpg
下载成功
开始下载图片: 55.jpg
下载成功
开始下载图片: 56.jpg
下载成功
开始下载图片: 57.jpg
下载成功
开始下载图片: 58.jpg
下载成功
开始下载图片: 59.jpg
下载成功
开始下载图片: 38-1.jpg
下载成功
开始下载图片: 40-1.jpg
下载成功
开始下载图片: 41.jpg
下载成功
开始下载图片: 42.jpg
下载成功
开始下载图片: 43.jpg
下载成功
开始下载图片: 44.jpg
下载成功
开始下载图片: 45.jpg
下载成功
开始下载图片: 46.jpg
下载成功
开始下载图片: 47.jpg
下载成功
开始下载图片: 48.jpg
下载成功
开始下载图片: 49.jpg
下载成功
开始下载图片: 50.jpg
下载成功
开始下载图片: 51.jpg
下载成功
开始下载图片: 52.jpg
下载成功
开始下载图片: 53.jpg
下载成功
开始下载图片: 54.jpg
下载成功
开始下载图片: 55.jpg
下载成功
开始下载图片: 56.jpg
下载成功
开始下载图片: 57.jpg
下载成功
开始下载图片: 58.jpg
下载成功
开始下载图片: 59.jpg
下载成功
代码和图:
https://liyitong.lanzout.com/ihH9k02s922j
|