本帖最后由 chensure 于 2020-2-29 23:12 编辑
目标:http://ebooks.crup.com.cn/r/46013_output/web/html5/index.html?opf=tablet/46013.xml&launchpage=http://ebooks.crup.com.cn/r/46013_output/web/46013-WMUzNZTHrzKPw8Ah2Q95z8sBvkK7n7jg-4.html
目的:把书download下来
分析:书本是由每一页jpg图片构成,httpcanary获取了图片的真实地址,然后就开始爬了
真实地址:http://ebooks.crup.com.cn/r/46013_output/web/html5/tablet/normal/eaf8ce47f46b7c0361775ce4cc306f5f_1 .jpg
最后,希望各位看官指点一下,我希望代码能再简洁一些
[Python] 纯文本查看 复制代码 import requests # 用于获取网页
import os # 这个是用于文件目录操作
import urllib.request
import time
def img_chuli(img_name):
'''
处理img的图片名字
img小于11,目录
img小于256,正文
img其他,参考答案
'''
if img < 11:
img_name = '0目录' + str(img)
elif img > 10 and img < 257:
img_name = '1正文' + str(img - 10)
else:
img_name = '2参考答案' + str(img - 256)
return img_name
# #获取网页源码
for img in range(1,289):
#for img in range(1, 12):
baseurl = 'http://ebooks.crup.com.cn/r/46013_output/web/html5/tablet/normal/eaf8ce47f46b7c0361775ce4cc306f5f_' + str(
img) + '.jpg'
img_name = img_chuli(img)
if os.path.exists( str(img) +'.jpg') == False: # 如果文件不存在,创建文件
# print(baseurl)
urllib.request.urlretrieve(baseurl, './' + img_name + '.jpg')
else:
pass
time.sleep(2) |