hackhase 发表于 2022-8-5 22:40

啥都想学Master 发表于 2022-8-8 15:04

Tysaay 发表于 2022-8-6 13:54
乱码,你要设置编码resp.encoding = resp.apparent_encoding #自动识别编码并设置解码

最近我爬的时候发现有些章节被故意插入一段乱码如下:“  銆愯璇嗗崄骞寸殑鑰佷功鍙嬬粰鎴戞帹鑽愮殑杩戒功锛屽挭鍜槄璇伙紒鐪熺壒涔堝ソ鐢紝寮?杞︺?佺潯鍓嶉兘闈犺繖涓湕璇诲惉涔︽墦鍙戞椂闂达紝杩欓噷鍙互涓嬭浇 .. 銆/p>  ”,虽然网页用gbk编码,之后改用gb18030解码,还是有?这个符号乱码无法被解码会报错。请问这个有什么办法解决吗。目前我是用try语句不行就跳过的方式。另外使用正则爬取中途会卡住但不会报错也没有反应,再运行又没事了,用xpath就不会如此会是什么原因呢?问题有点多,抱歉。感谢大佬!

a397555462 发表于 2022-8-6 11:15


import requests


def download_txt(name):
    keyword={ "searchkey": name}
    host='https://www.qb5.tw'
    resp = requests.get("https://www.qb5.tw/modules/article/search.php", params=keyword)
    resp=resp.text
    return resp
print(download_txt('宇宙职业选手'))


请教
下这个乱码怎么解决?

729 发表于 2022-8-6 10:55

接下来就可以异步下载啦,多线程下载呀等等

hckj1919 发表于 2022-8-6 11:30

这个可以,可以看个过瘾

fanvalen 发表于 2022-8-6 11:36

<meta charset="gbk">
解码方式是gbk不是utf-8
写文件的不要打印,打印会大大降低速度

Alexwhich 发表于 2022-8-6 12:15

a397555462 发表于 2022-8-6 11:15

import requests



是不是没换成UTF-8

知心 发表于 2022-8-6 12:19

a397555462 发表于 2022-8-6 11:15

import requests



设置一下返回内容的编码

Mahone1 发表于 2022-8-6 12:23

fanvalen 发表于 2022-8-6 11:36
解码方式是gbk不是utf-8
写文件的不要打印,打印会大大降低速度

大佬你好,“写文件的不要打印,打印会大大降低速度”这句话怎么解啊,能不能详细解释下,谢谢

fanvalen 发表于 2022-8-6 12:39

Mahone1 发表于 2022-8-6 12:23
大佬你好,“写文件的不要打印,打印会大大降低速度”这句话怎么解啊,能不能详细解释下,谢谢

能直接写txt的就不要print,哪怕你每次只打印一个章节名字也要耗很长的时间
当然你不在意时间长短,调试打印也是可以的
当然你也可以做一个时间计时来看看打印不打印的时间差多少

Mahone1 发表于 2022-8-6 12:41

fanvalen 发表于 2022-8-6 12:39
能直接写txt的就不要print,哪怕你每次只打印一个章节名字也要耗很长的时间
当然你不在意时间长短,调试 ...

好的,谢谢
页: [1] 2
查看完整版本: 新手第一次爬一本小说,如何章节保存?