新手第一次爬一本小说，如何章节保存？ - 吾爱破解 - 52pojie.cn

hackhase 发表于 2022-8-5 22:40

啥都想学Master 发表于 2022-8-8 15:04

Tysaay 发表于 2022-8-6 13:54
乱码，你要设置编码resp.encoding = resp.apparent_encoding #自动识别编码并设置解码

最近我爬的时候发现有些章节被故意插入一段乱码如下：“　　銆愯璇嗗崄骞寸殑鑰佷功鍙嬬粰鎴戞帹鑽愮殑杩戒功锛屽挭鍜槄璇伙紒鐪熺壒涔堝ソ鐢紝寮?杞︺?佺潯鍓嶉兘闈犺繖涓湕璇诲惉涔︽墦鍙戞椂闂达紝杩欓噷鍙互涓嬭浇 .. 銆/p>　　”，虽然网页用gbk编码，之后改用gb18030解码，还是有?这个符号乱码无法被解码会报错。请问这个有什么办法解决吗。目前我是用try语句不行就跳过的方式。另外使用正则爬取中途会卡住但不会报错也没有反应，再运行又没事了，用xpath就不会如此会是什么原因呢？问题有点多，抱歉。感谢大佬！

a397555462 发表于 2022-8-6 11:15

import requests

def download_txt(name):
keyword={ "searchkey": name}
host='https://www.qb5.tw'
resp = requests.get("https://www.qb5.tw/modules/article/search.php", params=keyword)
resp=resp.text
return resp
print(download_txt('宇宙职业选手'))

请教
下这个乱码怎么解决？

729 发表于 2022-8-6 10:55

接下来就可以异步下载啦，多线程下载呀等等

hckj1919 发表于 2022-8-6 11:30

这个可以，可以看个过瘾

fanvalen 发表于 2022-8-6 11:36

Alexwhich 发表于 2022-8-6 12:15

a397555462 发表于 2022-8-6 11:15

import requests

是不是没换成UTF-8

知心发表于 2022-8-6 12:19

a397555462 发表于 2022-8-6 11:15

import requests

设置一下返回内容的编码

Mahone1 发表于 2022-8-6 12:23

fanvalen 发表于 2022-8-6 11:36
解码方式是gbk不是utf-8
写文件的不要打印，打印会大大降低速度

大佬你好，“写文件的不要打印，打印会大大降低速度”这句话怎么解啊，能不能详细解释下，谢谢

fanvalen 发表于 2022-8-6 12:39

Mahone1 发表于 2022-8-6 12:23
大佬你好，“写文件的不要打印，打印会大大降低速度”这句话怎么解啊，能不能详细解释下，谢谢

能直接写txt的就不要print，哪怕你每次只打印一个章节名字也要耗很长的时间
当然你不在意时间长短，调试打印也是可以的
当然你也可以做一个时间计时来看看打印不打印的时间差多少

Mahone1 发表于 2022-8-6 12:41

fanvalen 发表于 2022-8-6 12:39
能直接写txt的就不要print，哪怕你每次只打印一个章节名字也要耗很长的时间
当然你不在意时间长短，调试 ...

好的，谢谢

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver