吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 14964|回复: 257
收起左侧

[Python 原创] 原创力文库下载工具开源

    [复制链接]
bean0283 发表于 2022-10-30 19:05
本帖最后由 bean0283 于 2022-10-30 19:07 编辑

前几天发了工具的成品,虽然不是很完美,但也受到了大伙的热烈关注,由于本人才疏学浅,难以写出更好的东西,故决定开源此工具,供大家一起学习优化
若大佬们有好的建议和想法,请提出来一起学习,谢谢
[Python] 纯文本查看 复制代码
# !/usr/bin/python
# -*- coding: UTF-8 -*-
import re
import json
import os
import shutil
import sys
import time
import requests
import img2pdf
from PIL import Image

from alive_progress import alive_bar
from requests.exceptions import SSLError

png_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',
    'Referer': 'https://max.book118.com/',
}


def down_pngs(pageIndex):
    print(pngs[pageIndex])
    down_url = 'https://view-cache.book118.com' + pngs[pageIndex]
    print(down_url)
    res = requests.get(url=down_url)
    try:
        png = res.content
        with open(os.path.join(temp_dir, str(pageIndex) + '.jpeg'), 'wb') as f:
            f.write(png)
    except:
        return


logo = """                  __  __
      _ _        /_@)_@) \          /^^\ /^\ /^^\_ 
    _/oo \____/~''. . .  '~\       /'\''  ~ ''~~' -'\_ 
   / '.'. ~.~.~.       .'    ~ |     /'\~~..''''.'' ''  ~\_ 
  ('_'_'_'_'_'_'_'_  ' :   '     \_/' '.''  . '.   .''  '.  ~\_ 
  ~V~V~V~V  \   ~\  '' '~  '   '' ~   `   ~  ''   ~\_ 
    /\~/\~/\~/\~/|/  '   ''  _   ' ~ ''  '    ~  '' __  '  ..  \_ 
 <-- --- ---.---.--/'   ''   /'  '\_ '' ': ~ ;;''    ' /''; \ ;'''''' '' ~\ _ 
    \~ '. . : .:: ~. :.  /_'''_'' \_' :'''_ : _ ''/''_' '_ \:_ '''' #''..\/\/\/~/\~ ''~~~~~O
 ~~ \-~ `---~~~---- \(_)(_)(_)/ ~ ~~' ~\(_)(_)(_)\_~_~_~_~_~/&#732;¤1
 ---------------------------------------------------------------------------------------------by:bean0283
"""
print(logo)

while True:
    url = input('请输入原创力文库url:')
    url = url.split('?')[0]
    print('下载地址:', url)
    temp_dir = url.split('/')[-1]

    # 删除老的临时文件夹并新建临时文件夹
    if os.path.exists(temp_dir):
        shutil.rmtree(temp_dir)
    os.mkdir(temp_dir)

    print('开始下载 HTML...', end='')

    try:
        response = requests.get(url=url)
    except(SSLError):
        print("\n\033[31m不要使用代理软件-------\033[0m")
        print("\033[31m请关闭代理软件后重新运行程序\033[0m")
        print("\033[31m请关闭vpn软件后重新运行程序\033[0m")
        sys.exit(0)

    page = response.text

    print('成功. \n开始解析 HTML...', end='')

    title = re.search('title: (.*),', page).group(1).replace("'", "")
    view_token = re.search('view_token: (.*)\'', page).group(1).replace("'", "")
    filetype = re.search('format: (.*)\'', page).group(1).replace("'", "")
    senddate = re.search('senddate: (.*),', page).group(1).replace("'", "")
    aid = re.search(' aid: (.*), //解密后的id', page).group(1)
    actual_page = int(re.search('actual_page: (.*),', page).group(1))  # 真实页数
    preview_page = int(re.search('preview_page: (.*),', page).group(1))  # 可预览页数

    if actual_page > preview_page:
        print("\n\033[31m该文档为限制文档,无法下载全部内容,请用vip+rmb,该问题无需反馈给开发者,他也不会解决!!\033[0m\n")

    output = title  # 输出文件(夹)
    print('解析成功. ')
    print('文档标题: ', title)
    # 接口每次会返回6个下载page地址
    list_pn = list(range(1, preview_page + 1, 6))

    # print(pngs)
    if filetype == 'pdf':
        pngs = {}
        print('解析到pdf文档, 准备开始解析下载..', end='')
        print('解析成功.\n正在获取pngs下载地址...')
        print('受接口限制,2s访问一次,请耐心等待所有接口信息返回')

        with alive_bar(len(list_pn), title='ing...') as bar:
            for pn in list_pn:
                bar()
                down_page_url = 'https://openapi.book118.com/getPreview.html?project_id=1&aid={}&view_token={}&page={}&_={}'.format(
                    aid, view_token, pn, str(int(time.time())))
                jsonpReturn = requests.get(url=down_page_url)
                page = re.search('jsonpReturn\((.*)\)', jsonpReturn.text).group(1)
                data_temp = json.loads(page)['data']
                # print(data_temp)
                pngs.update({x: data_temp[x] for x in data_temp})  # 这里有个bug,若返回值的url为空时,这里不会报错,但会造成下载png时异常,暂时没有考虑处理
                if pn != list_pn[-1]:
                    time.sleep(2)

        print('\n开始下载 jpg(s)...')
        pagenums = list(range(1, len(pngs) + 1))

        with alive_bar(len(pagenums), title='ing...') as bar:
            for i in range(len(pagenums)):
                bar()
                down_url = "https:" + pngs[str(i + 1)]
                request = requests.get(url=down_url, headers=png_headers)
                try:
                    page = request.content
                    with open(os.path.join(temp_dir, str(pagenums[i]) + '.jpeg'), 'wb') as f:
                        f.write(page)
                except:
                    continue

        print('\n开始合并图片成PDF...', end='')

        file_imgs = [os.path.join(temp_dir, str(i) + '.jpeg') for i in pagenums]
        # 不用以下代码会使img2pdf报错
        for img_path in file_imgs:
            with open(img_path, 'rb') as data:
                img = Image.open(data)
                # 将PNG中RGBA属性变为RGB,即可删掉alpha透明度通道
                img.convert('RGB').save(img_path)

        with open(output + '.pdf', 'wb') as f:
            f.write(img2pdf.convert(file_imgs))

        shutil.rmtree(temp_dir)

        print('下载成功.')
        print('保存到 ' + output + '.pdf')
    elif filetype in ['docx', 'doc']:
        pngs = {}
        print('解析到{}文档, 准备开始解析下载..'.format(filetype), end='')
        print('解析成功.\n正在获取pngs下载地址...')
        print('受接口限制,2s访问一次,请耐心等待所有接口信息返回')
        with alive_bar(len(list_pn), title='ing...') as bar:
            for pn in list_pn:

                down_page_url = 'https://openapi.book118.com/getPreview.html?&project_id=1&aid={}&t={}&view_token={}&page={}&_={}'.format(
                    aid, senddate, view_token, pn, str(int(time.time())))
                jsonpReturn = requests.get(url=down_page_url)

                page = re.search('jsonpReturn\((.*)\)', jsonpReturn.text).group(1)
                data_temp = json.loads(page)['data']
                # print(data_temp)
                bar()
                pngs.update({x: data_temp[x] for x in data_temp})
                if pn != list_pn[-1]:
                    time.sleep(2)

        print('\n开始下载 jpg(s)...')
        pagenums = list(range(1, len(pngs) + 1))

        with alive_bar(len(pagenums), title='ing...') as bar:
            for i in range(len(pagenums)):
                down_url = "https:" + pngs[str(i + 1)]
                request = requests.get(url=down_url, headers=png_headers)
                bar()
                try:
                    page = request.content
                    with open(os.path.join(temp_dir, str(pagenums[i]) + '.jpeg'), 'wb') as f:
                        f.write(page)
                except:
                    continue

        print('\n开始合并图片成PDF...', end='')

        file_imgs = [os.path.join(temp_dir, str(i) + '.jpeg') for i in pagenums]
        for img_path in file_imgs:
            with open(img_path, 'rb') as data:
                img = Image.open(data)
                # 将PNG中RGBA属性变为RGB,即可删掉alpha透明度通道
                img.convert('RGB').save(img_path)

        with open(output + '.pdf', 'wb') as f:
            f.write(img2pdf.convert(file_imgs))

        shutil.rmtree(temp_dir)

        print('下载成功.')
        print('保存到 ' + output + '.pdf')

    else:
        print('不支持的参数.文件类型:', filetype)

    temp_ = os.path.realpath(sys.argv[0])
    os.startfile(os.path.dirname(temp_))
    print("执行完成,继续下载请黏贴url,结束请关闭窗口\n")

原创力工具源码.rar

2.68 KB, 下载次数: 2050, 下载积分: 吾爱币 -1 CB

免费评分

参与人数 39吾爱币 +44 热心值 +29 收起 理由
Auld + 1 + 1 热心回复!
qu6710yuan + 3 + 1 我很赞同!
forgeer + 1 + 1 热心回复!
BlueTheEf + 1 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
ifdess + 1 + 1 热心回复!
a01287470 + 1 热心回复!
scottlee1008 + 1 我很赞同!
muchenxi + 1 热心回复!
hubohang + 1 我很赞同!
smme2021 + 1 + 1 我很赞同!
谜糊滴谈 + 1 + 1 谢谢@Thanks!
cg68828 + 1 我很赞同!
wblylh + 1 + 1 谢谢@Thanks!
YuLoo + 1 + 1 热心回复!
年轻人不讲5的 + 1 + 1 谢谢@Thanks!
mazh369 + 1 我很赞同!
cykkle + 1 + 1 谢谢@Thanks!
yjn866y + 1 + 1 谢谢@Thanks!
csq0216 + 1 我很赞同!
DaiTian + 1 + 1 谢谢 @Thanks!
xyl52p + 1 谢谢@Thanks!
苏紫方璇 + 7 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
苏子小白 + 1 + 1 鼓励转贴优秀软件安全工具和文档!
算了散麼 + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
vinafule + 1 用心讨论,共获提升!
牧濑伊莉雅 + 1 + 1 谢谢@Thanks!
月敏星希 + 1 热心回复!
我的梦想也会飞 + 1 + 1 就很棒
shalj + 1 + 1 热心回复!
263387 + 1 谢谢@Thanks!
allenzhu + 1 谢谢@Thanks!
woodstock + 1 + 1 谢谢@Thanks!
笨笨家的唯一 + 1 + 1 我很赞同!
清姬 + 1 热心回复!
SL18991436689 + 1 + 1 谢谢@Thanks!
wangdanq + 1 + 1 谢谢@Thanks!
lgc81034 + 1 谢谢@Thanks!
冬天冷了多穿点 + 2 + 1 我很赞同!
helian147 + 1 + 1 热心回复!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

lsyh1688 发表于 2022-10-31 09:44
E:\Pythonsoft1\Anaconda3\python.exe E:/Pythondata/ycl_ky.py
Traceback (most recent call last):
  File "E:/Pythondata/ycl_ky.py", line 10, in <module>
    import img2pdf
ModuleNotFoundError: No module named 'img2pdf'

Process finished with exit code 1

缺少模块 ,哪里找?
ma5635 发表于 2022-10-30 22:10
kooke2008 发表于 2022-10-30 22:04
加油,你是很棒的。 那个原创力,用你前几天的作品是可以下载成功了
alongzhenggang 发表于 2022-10-30 22:20
嗯ヽ(○^&#12904;^)&#65417;&#9834;看好你哟
fangben518 发表于 2022-10-30 22:21
当时我花了9.9买的文章,真黑
六月莫竹 发表于 2022-10-30 22:38
支持支持,很不错的工具软件
momoxiaoyumo 发表于 2022-10-30 23:05
感谢分享一起学习
abcxyzmn 发表于 2022-10-30 23:20
虽然不懂,但慢慢学习,以及试试使用,谢谢
graper 发表于 2022-10-30 23:23


支持!!!正需要

CDavid 发表于 2022-10-30 23:41
感谢楼主,我来关注后续发展
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-24 08:23

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表