zz77244920 发表于 2020-3-7 23:30

弱水三T 发表于 2020-6-4 18:21

barnett2016 发表于 2020-3-12 18:47
import requests
from lxml import etree
from PIL import Image


Traceback (most recent call last):
#   File "F:/untitled1/23123.py", line 29, in <module>
#   imgs.save('ydjd.pdf', save_all=True, append_images=imgs)
# IndexError: list index out of range
这是为什么啊

barnett2016 发表于 2020-3-12 18:47

import requests
from lxml import etree
from PIL import Image
from io import BytesIO

url = "https://www.manhuatai.com/ydjd/" # 这里是那本漫画就换成那
headers = {
    "user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}
response = requests.get(url,headers=headers)
html = etree.HTML(response.text)   # 让源代码能够处理
lis = html.xpath('//ol[@id="j_chapter_list"]/li/a/div/img/@data-src')               #可以拿到链接
imgs = []   # 用来保存正本漫画的
for li in lis:
    li = li.strip() # 去掉括号里面的内容
    # left = li.split("/")[:-1]
    # print(left)
    index = 1
    whileTrue:
      url= "https:" + li + str(index) + ".jpg-mht.middle.webp"
      print(url)
      resp = requests.get(url,headers=headers)
      if resp.content.startswith(b"<?xml"):# 返回的不是图片就停止
            break
      im = Image.open(BytesIO(resp.content))
      imgs.append(im)
      index += 1

imgs.save('ydjd.pdf',save_all=True,append_images=imgs)
            # 这里的名字就是漫画的名字


我就是这样改了一下,脚本报上面那个错

卡莎 发表于 2020-3-7 23:31

膜拜大老   快帮帮我

Silent丶Y 发表于 2020-3-7 23:45


膜拜大老 先收藏

laogui2008 发表于 2020-3-7 23:51

哈哈,感谢分享

GиY 发表于 2020-3-8 00:02

作为一个刚入门的小白,刚看到标题时我觉得我应该能看懂一点,点进来之后发现,第一行是啥子...希望几个月后我也能自己写一个出来,加油!支持楼主一下!

小小小小小小鹿 发表于 2020-3-8 00:08

可以换成其他的漫画网站爬不   楼主

cherrypi 发表于 2020-3-8 00:11

谢谢分享,学习一下。

hang6210 发表于 2020-3-8 00:41

虽然看不懂,先收藏

jayfox 发表于 2020-3-8 00:49

你这下完再保存是不是会爆内存啊,应该及时储存

小小怪X 发表于 2020-3-8 00:51

谢谢分享,收藏备用
页: [1] 2 3 4
查看完整版本: python爬虫漫画源码分享