吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1523|回复: 4
收起左侧

[讨论] 百度阅读爬取(只能搞定到试读 其他无能为力)

[复制链接]
lihu5841314 发表于 2021-7-11 15:37
[Asm] 纯文本查看 复制代码
import requests,re,time
import json
from tqdm import  tqdm
# u7f6a\u6076\u7a7f\u8d8a 字体加密   罪恶穿越 \u7f6a\u6076\u7a7f\u8d8a


url1 ='https://yuedu.baidu.com/ebook/413d24361a37f111f1855be5?fr=booklist'  #小说目录页
bok = url1.split("?")[0].split("/")[-1]
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36',
'Referer': 'https://yuedu.baidu.com/'
}
resp_m = requests.get(url1,headers=headers).text

ex=re.compile(r"'bdjsonUrl', 'https://wenku.baidu.com/content/(.*?)\?m=(?P<prm>.*?)'",re.S)
m = ex.search(resp_m).group('prm')
cn = re.search(r"bookInfo\['chapterCount'\] = parseInt\('(?P<cn>.*?)'\)",resp_m,re.S).group("cn")
cn1 = int(cn)
tim = str(int(time.time()))
for  n  in  tqdm(range(1,cn1+1)):
    url = 'https://wenku.baidu.com/content/'+ bok  # 章节请求页
    #m的获取
    params={
    'm': m,
    'type': 'json',
    'cn': n,    #cn 是章节  想办法获取总的章节数
    '_': 0,
    't': tim,
    'token': 'b732fd00f8f311d416b01cc0a0698cce',
    }
    print(n)
    resp = requests.get(url,headers=headers,params=params)
    text_resp = resp.text.encode('utf-8').decode("unicode_escape")
    text_resp = json.loads(text_resp)['c']
    book_charper=[]
    for  charper in  text_resp[:-1]:
         charper1 = charper['c']
         book_charper.append(charper1)
    book_char = "\n".join(book_charper)
    with open('1.txt','a',encoding="utf-8") as  f:
          f.write(book_char)
          f.write('\n')
print("下载完成")

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
zhoushengzhi + 1 + 1 用心讨论,共获提升!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

Ercilan 发表于 2021-7-11 19:00
什么字体加密
 楼主| lihu5841314 发表于 2021-7-11 20:01
CCQc 发表于 2021-7-11 21:38
Ercilan 发表于 2021-7-11 23:02
lihu5841314 发表于 2021-7-11 20:01
最简单的就是转码

其实那不算加密,就是一个编码而已
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 01:50

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表