zz77244920
发表于 2020-3-7 23:30
弱水三T
发表于 2020-6-4 18:21
barnett2016 发表于 2020-3-12 18:47
import requests
from lxml import etree
from PIL import Image
Traceback (most recent call last):
# File "F:/untitled1/23123.py", line 29, in <module>
# imgs.save('ydjd.pdf', save_all=True, append_images=imgs)
# IndexError: list index out of range
这是为什么啊
barnett2016
发表于 2020-3-12 18:47
import requests
from lxml import etree
from PIL import Image
from io import BytesIO
url = "https://www.manhuatai.com/ydjd/" # 这里是那本漫画就换成那
headers = {
"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}
response = requests.get(url,headers=headers)
html = etree.HTML(response.text) # 让源代码能够处理
lis = html.xpath('//ol[@id="j_chapter_list"]/li/a/div/img/@data-src') #可以拿到链接
imgs = [] # 用来保存正本漫画的
for li in lis:
li = li.strip() # 去掉括号里面的内容
# left = li.split("/")[:-1]
# print(left)
index = 1
whileTrue:
url= "https:" + li + str(index) + ".jpg-mht.middle.webp"
print(url)
resp = requests.get(url,headers=headers)
if resp.content.startswith(b"<?xml"):# 返回的不是图片就停止
break
im = Image.open(BytesIO(resp.content))
imgs.append(im)
index += 1
imgs.save('ydjd.pdf',save_all=True,append_images=imgs)
# 这里的名字就是漫画的名字
我就是这样改了一下,脚本报上面那个错
卡莎
发表于 2020-3-7 23:31
膜拜大老 快帮帮我
Silent丶Y
发表于 2020-3-7 23:45
膜拜大老 先收藏
laogui2008
发表于 2020-3-7 23:51
哈哈,感谢分享
GиY
发表于 2020-3-8 00:02
作为一个刚入门的小白,刚看到标题时我觉得我应该能看懂一点,点进来之后发现,第一行是啥子...希望几个月后我也能自己写一个出来,加油!支持楼主一下!
小小小小小小鹿
发表于 2020-3-8 00:08
可以换成其他的漫画网站爬不 楼主
cherrypi
发表于 2020-3-8 00:11
谢谢分享,学习一下。
hang6210
发表于 2020-3-8 00:41
虽然看不懂,先收藏
jayfox
发表于 2020-3-8 00:49
你这下完再保存是不是会爆内存啊,应该及时储存
小小怪X
发表于 2020-3-8 00:51
谢谢分享,收藏备用