文泉下载后pdf生成和目录的获取by_Python

858043016 · 发表于 2020-2-12 18:51

本帖最后由 858043016 于 2020-2-20 12:22 编辑

1.获取书名和目录
网页分别是
名称
https://lib-nuanxin.wqxuetang.com/v1/book/initbook?bid=3206295
目录
https://lib-nuanxin.wqxuetang.com/v1/book/catatree?bid=3206295
返回格式是json
2.pymupdf
生成PDF以及添加目录
3.代码
3.1只生成目录，结合FreePic2PDF使用，已经生成utf-16文件了，复制整个文件就可以使用

[Python] 纯文本查看 复制代码

import requests as req
import json
import os
def get_cata(book_id):
    cata=""
    url_name = "https://lib-nuanxin.wqxuetang.com/v1/book/catatree?bid={}".format(book_id)
    response = req.post(url=url_name, headers=headers)
    book_cata = json.loads(response.text)
    for i in book_cata['data']:
        cata=cata+str(i['label'])+'\t'+str(i['pnum'])+'\n'
        # print(i['level'],i['label'],i['pnum'])
        if ('children' in i):
            for j in (i['children']):
                # print("\t",j['level'],j['label'],j['pnum'])
                cata=cata+'\t'+str(j['label'])+'\t'+str(j['pnum'])+'\n'
    return cata

with open('Cookies.txt', 'r') as f:
    cookies=f.read()
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'Cookie': cookies,
    'Host': 'lib-nuanxin.wqxuetang.com',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'none',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
}
book_id=input('输入书的id:\n')
with open('FreePic2Pdf_bkmk.txt', 'w',encoding='utf-16') as f:
    cookies=f.write(get_cata(book_id))

3.2生成PDF和目录

[Python] 纯文本查看 复制代码

import fitz
import requests as req
import json
import os
import img2pdf

def get_name(book_id):
    url_name="https://lib-nuanxin.wqxuetang.com/v1/book/initbook?bid={}".format(book_id)
    response = req.post(url=url_name, headers=headers)
    book_more=json.loads(response.text)
    return(book_more['data']['name'],book_more['data']['pages'])
def get_cata(book_id):
    cata=[]
    url_name = "https://lib-nuanxin.wqxuetang.com/v1/book/catatree?bid={}".format(book_id)
    response = req.post(url=url_name, headers=headers)
    book_cata = json.loads(response.text)
    for i in book_cata['data']:
        cata.append([int(i['level']), i['label'], int(i['pnum'])])
        # print(i['level'],i['label'],i['pnum'])
        if ('children' in i):
            for j in (i['children']):
                # print("\t",j['level'],j['label'],j['pnum'])
                cata.append([int(j['level']), j['label'], int(j['pnum'])])
    return cata

def pic2pdf(book_id):
    name, page_all = get_name(book_id)
    print("开始进行{}_{},一共{}页".format(book_id,name,page_all))
    #生成目录
    path_tem = path_raw+"\\temp\\{}_{}_P{}.pdf".format(name, book_id, page_all)
    path_final = path_raw+"\\{}_{}_P{}.pdf".format(name, book_id, page_all)
    imgList = os.listdir(path_raw)
    print("获取了{}页图片".format(len(imgList)))
    imgList.sort(key=lambda x:int(x[:-4]))
    img_all=[]
    for img in imgList:
        img_path=path_raw+"\\{}".format(img)
        img_all.append(img_path)
    pfn_bytes = img2pdf.convert(img_all, with_pdfrw=False);
    #判断临时目录是否存在
    if os.path.exists(path_raw+"\\temp") == False:
        os.mkdir(path_raw+"\\temp")
    with open(path_tem, "wb") as f:
        f.write(pfn_bytes)
        f.close()
    print("准备生成目录...")
    #添加目录
    try:
        doc = fitz.open(path_tem)
        toc = get_cata(book_id)
        doc.setToC(toc)
        doc.save(path_final)  # 保存pdf文件
        doc.close()
        print("保存成功{}".format(path_final))
        os.remove(path_tem)
        os.remove(path_raw+"\\temp")
    except:
        print("添加目录错误，检查页码是否正确")

#获取cookies
with open('Cookies.txt', 'r') as f:
    cookies=f.read()
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'Cookie': cookies,
    'Host': 'lib-nuanxin.wqxuetang.com',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'none',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
}
book_id=input('输入书的id:\n')
path_raw=input('输入放着图片的文件夹的全部路径:\n')
pic2pdf(book_id)

3.3 20200220更新，不需要cookies了，代码直接复制就能用

[Python] 纯文本查看 复制代码

import json
import os
import fitz
import img2pdf
import requests as req
def get_name(book_id):
    url_name = 'https://www.wqxuetang.com/v1/book/initbook?bid={}'.format(book_id)
    response = req.post(url=url_name, headers=headers)
    book_more=json.loads(response.text)
    return(book_more['data']['name'],book_more['data']['pages'])
def get_cata(book_id):
    cata=[]
    url_name='https://www.wqxuetang.com/v1/book/catatree?bid={}'.format(book_id)
    response = req.post(url=url_name, headers=headers)
    book_cata = json.loads(response.text)
    for i in book_cata['data']:
        cata.append([int(i['level']), i['label'], int(i['pnum'])])
        # print(i['level'],i['label'],i['pnum'])
        if ('children' in i):
            for j in (i['children']):
                # print("\t",j['level'],j['label'],j['pnum'])
                cata.append([int(j['level']), j['label'], int(j['pnum'])])
    return cata

headers = {
    'Accept': 'application/json,text/plain,*/*',
    'Accept - Encoding': 'gzip,deflate,br',
    'Accept - Language': 'zh-CN,zh;q = 0.9',
    'BA': 'bapkg/com.bookask.wqxuetang,baver/0.0.1',
    'Connection': 'keep - alive',
    'Cookie':'',
    'Host':'www.wqxuetang.com',
    'Referer':'https://www.wqxuetang.com/',
    'User - Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
def pic2pdf(book_id):
    name, page_all = get_name(book_id)
    print("开始进行{}_{},一共{}页".format(book_id,name,page_all))
    #生成目录
    path_tem = path_raw+"\\temp\\{}_{}_P{}.pdf".format(name, book_id, page_all)
    path_final = path_raw+"\\{}_{}_P{}.pdf".format(name, book_id, page_all)
    imgList = os.listdir(path_raw)
    print("获取了{}页图片".format(len(imgList)))
    imgList.sort(key=lambda x:int(x[:-4]))
    img_all=[]
    for img in imgList:
        img_path=path_raw+"\\{}".format(img)
        img_all.append(img_path)
    pfn_bytes = img2pdf.convert(img_all, with_pdfrw=False);
    #判断临时目录是否存在
    if os.path.exists(path_raw+"\\temp") == False:
        os.mkdir(path_raw+"\\temp")
    with open(path_tem, "wb") as f:
        f.write(pfn_bytes)
        f.close()
    print("准备生成目录...")
    #添加目录
    try:
        doc = fitz.open(path_tem)
        toc = get_cata(book_id)
        doc.setToC(toc)
        doc.save(path_final)  # 保存pdf文件
        doc.close()
        print("保存成功{}".format(path_final))
        os.remove(path_tem)
    except:
        print("添加目录错误，检查页码是否正确")

flag=input("单独添加目录输入1\n")
if flag=='1':
    print("-进入单独添加目录-")
    try:
        book_id = input('输入书的id:\n')
        path = input("输入文件目录包括pdf名称")
        doc = fitz.open(path)
        toc = get_cata(book_id)
        doc.setToC(toc)
        doc.save(path)  # 保存pdf文件
        doc.close()
        print("添加成功{}".format(path))
    except:
        print("添加目录失败")


else:
    print("-进入PDF合成及目录添加-")
    book_id = input('输入书的id:\n')
    path_raw = input('输入放着图片的文件夹的全部路径:\n')
    pic2pdf(book_id)

4.参考文献
https://zhuanlan.zhihu.com/p/88618967
https://www.jb51.net/article/160622.htm

点个热心吧

5.软件下载地址

https://www.52pojie.cn/thread-1103527-1-1.html

858043016 · 发表于 2020-2-12 23:17

a1239761234 发表于 2020-2-12 22:55
大佬，cookie的Name叫什么？我好复制value 我不知道哪个是文泉的cookie，错误信息提示我没有登录

header里面的cookie全部复制
举个例子
acw_tc=276aedd815809635644848902e0e4fd9rcaad885f1e7ea46e726ce05e837d3; _gid=386761085674; _gidv=09dc965br4136047b48175910971a625; PHPSESSID=iquouitsjisgd32djh50nmgukv; Hm_lvt_a84b27ffd87daa3273555205ef60tdf89=1581489269,1581490795,1581491247,1581506791; ssxmod_itna=eqAOqjxGxfxmxCuDBpOt7DC0tp255GBCh1x0HoGzDAxn40iDt=cbmEQcg0AmxORq0QglmxP5WOeO4itqQf0eUrDU4i8DCdBAQTDeWQD5xGoDPxDeDADYojDAqiOD7d=DEDmRODYxGAuhxitD4qDBF23DKqGgtqhGWBQ/j4iBin6GBMGuD0tPxBdKleb4VQWPUum0DB=axBQgGMj9ieDHRhDTDO+ES3AC5D4PCGEQUEHvFYYIC+GoWUq5uGhPUA83WDDAKihLXiD==; ssxmod_itna2=eqAOqjxGxfxmxCuDBpOt7DC0tp2rGBChxnFoWI4Dsq3oDLBmpxsBGnSDw7uj9q0Q9R6uYdD6QDI47k/cCgDYL+4wxdL7bUQ8UIqomE3TztKnfLXatK+CynaeYDqO6eDOWsDGCj=K+zWRNlBLEyAdt/FS=Yjh3Y9rEMRx+q2GYG7QIxKwDZWf5l4SRe5qTpl4ASbm3Khw3o54wFfTn7OZr9fTXBAqEeugyzER6GpwH1pjy2meUC7Wn+btUqECPp9d3fzLt52M0OgzT743YjadUjrbCR9IQBDXCpgryhUFnyMhifnMU/1bInu6Fhzt9iGPRm4aAwfbHu3qzb5n+Ya8bT7D8CFIzaItW4H5YVaL0F=DFIWRRnafA9Ben2zuhYK9Ih6FOkAKsAgY6xxi5gWvkFYS9w5dSxCa1zKO7vU4ys7SQ6K3Onc8f1SoSR7r=vS3G=Q48SFWWGqAO1IPW8oTkyPphNXeQnobiiiFRQYGs44e4+OwGbZwqQdEWSjR2zafE7ww+ONdxDKwPD7=DYI4eD==; Hm_lpvt_a84b27ffd87daa3273555205ef60df89=1581520575

wtujcf123 · 发表于 2020-2-23 12:53

本帖最后由 wtujcf123 于 2020-2-23 12:54 编辑

你好，出现以下提示，请问如何解决
开始进行。。。
获取了951页图片
WARNING:root:Image contains transparency which cannot be retained in PDF.
WARNING:root:img2pdf will not perform a lossy operation.
WARNING:root:You can remove the alpha channel using imagemagick:
WARNING:root:  $ convert input.png -background white -alpha remove -alpha off output.png
Traceback (most recent call last):
  File "D:\桌面\11.py", line 89, in <module>
pic2pdf(book_id)
  File "D:\桌面\11.py", line 49, in pic2pdf
pfn_bytes = img2pdf.convert(img_all, with_pdfrw=False);
  File "C:\Users\wtu\AppData\Local\Programs\Python\Python36\lib\site-packages\img2pdf.py", line 1829, in convert
) in read_images(rawdata, kwargs["colorspace"], kwargs["first_frame_only"]):
  File "C:\Users\wtu\AppData\Local\Programs\Python\Python36\lib\site-packages\img2pdf.py", line 1225, in read_images
imgdata, imgformat, default_dpi, colorspace, rawdata
  File "C:\Users\wtu\AppData\Local\Programs\Python\Python36\lib\site-packages\img2pdf.py", line 990, in get_imgmetadata
raise Exception("Refusing to work on images with alpha channel")
Exception: Refusing to work on images with alpha channel

miqi1314 · 发表于 2020-2-12 19:00

支持原创！！

圣皇 · 发表于 2020-2-12 19:18

感谢分享

I5U5P · 发表于 2020-2-12 19:54

谢谢分享

威士忌 · 发表于 2020-2-12 20:47

怎么下载是个问题最新好像不行了

wyzjezm · 发表于 2020-2-12 21:19

楼主能否编译成exe文件方便我们这些小白直接使用。

aniu · 发表于 2020-2-12 21:31

有下载的pythOn吗？

ymhld · 发表于 2020-2-12 22:03

大佬这个好像合成JPG和加目录的吧

858043016 · 发表于 2020-2-12 22:12

ymhld 发表于 2020-2-12 22:03
大佬这个好像合成JPG和加目录的吧

是的，我又进行了修改，这个生成pdf把我12G内存跑满了都

ymhld · 发表于 2020-2-12 22:12

858043016 发表于 2020-2-12 22:12
是的，我又进行了修改，这个生成pdf把我12G内存跑满了都

那估计是合成PDF时弄的，没合成对

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 文泉下载后pdf生成和目录的获取by_Python

免费评分