python爬虫漫画源码分享 - 吾爱破解 - 52pojie.cn

zz77244920 发表于 2020-3-7 23:30

弱水三T 发表于 2020-6-4 18:21

barnett2016 发表于 2020-3-12 18:47
import requests
from lxml import etree
from PIL import Image

Traceback (most recent call last):
# File "F:/untitled1/23123.py", line 29, in <module>
# imgs.save('ydjd.pdf', save_all=True, append_images=imgs)
# IndexError: list index out of range
这是为什么啊

barnett2016 发表于 2020-3-12 18:47

import requests
from lxml import etree
from PIL import Image
from io import BytesIO

url = "https://www.manhuatai.com/ydjd/" # 这里是那本漫画就换成那
headers = {
"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}
response = requests.get(url,headers=headers)
html = etree.HTML(response.text) # 让源代码能够处理
lis = html.xpath('//ol[@id="j_chapter_list"]/li/a/div/img/@data-src')             #可以拿到链接
imgs = [] # 用来保存正本漫画的
for li in lis:
li = li.strip() # 去掉括号里面的内容
# left = li.split("/")[:-1]
# print(left)
index = 1
whileTrue:
   url= "https:" + li + str(index) + ".jpg-mht.middle.webp"
   print(url)
   resp = requests.get(url,headers=headers)
   if resp.content.startswith(b"<?xml"):# 返回的不是图片就停止
         break
   im = Image.open(BytesIO(resp.content))
   imgs.append(im)
   index += 1

imgs.save('ydjd.pdf',save_all=True,append_images=imgs)
         # 这里的名字就是漫画的名字

我就是这样改了一下，脚本报上面那个错

卡莎发表于 2020-3-7 23:31

膜拜大老快帮帮我

Silent丶Y 发表于 2020-3-7 23:45

膜拜大老先收藏

laogui2008 发表于 2020-3-7 23:51

哈哈，感谢分享

GиY 发表于 2020-3-8 00:02

作为一个刚入门的小白，刚看到标题时我觉得我应该能看懂一点，点进来之后发现，第一行是啥子...希望几个月后我也能自己写一个出来，加油！支持楼主一下！

小小小小小小鹿 发表于 2020-3-8 00:08

可以换成其他的漫画网站爬不楼主

cherrypi 发表于 2020-3-8 00:11

谢谢分享，学习一下。

hang6210 发表于 2020-3-8 00:41

虽然看不懂，先收藏

jayfox 发表于 2020-3-8 00:49

你这下完再保存是不是会爆内存啊，应该及时储存

小小怪X 发表于 2020-3-8 00:51

谢谢分享，收藏备用

页: [1] 2 3 4

吾爱破解 - 52pojie.cn's Archiver