好友
阅读权限10
听众
最后登录1970-1-1
|
在这个网站httpswww.kanxiaojiejie.com
import requests # 加载网页请求模块
import re # 使用正则表达式 简单解释:匹配网页中出现的一段代码,将其全部获取
import parsel
import os
from parsel import selector
wangzhan = requests.get("https://www.kanxiaojiejie.com/page/1") # 访问目标网站
heml_1 = wangzhan.text # 将获取到目标网站的数据存在heml中
zip_1 = re.findall('<a href=(.*?)target="_blank"rel="bookmark">(.*?)</a>', heml_1)
# 一定要注意空格 空格 空格
for url, title in zip_1:
if not os.path.exists('img'/'+title'):
os.mkdir('img'/'+title')
tupian = requests.get(url)
heml_2 = tupian.text
select = parsel.Selector(heml_2)
jieshoushuju = selector.css('p>img::attr(src)').getall() # attr()提取括号里的属性内容src
for img in jieshoushuju:
tiquneirong = requests.get(img).content # content是获取二进制的数据 二进制数据是图片 音频 视频
tupian_name = img.split('?')[-1] # 准备给图片命名
with open(f'img/{title}/{tupian_name}', mode="wb") as f:
f.write(tiquneirong)
print(tupian_name, '成功')
print(title,'成功')
|
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|