乱码,你要设置编码resp.encoding = resp.apparent_encoding #自动识别编码并设置解码
最近我爬的时候发现有些章节被故意插入一段乱码如下:“ 銆愯璇嗗崄骞寸殑鑰佷功鍙嬬粰鎴戞帹鑽愮殑杩戒功锛屽挭鍜槄璇伙紒鐪熺壒涔堝ソ鐢紝寮?杞︺?佺潯鍓嶉兘闈犺繖涓湕璇诲惉涔︽墦鍙戞椂闂达紝杩欓噷鍙互涓嬭浇 .. 銆/p> ”,虽然网页用gbk编码,之后改用gb18030解码,还是有?这个符号乱码无法被解码会报错。请问这个有什么办法解决吗。目前我是用try语句不行就跳过的方式。另外使用正则爬取中途会卡住但不会报错也没有反应,再运行又没事了,用xpath就不会如此会是什么原因呢?问题有点多,抱歉。感谢大佬!
import requests
def download_txt(name):
keyword={ "searchkey": name}
host='https://www.qb5.tw'
resp = requests.get("https://www.qb5.tw/modules/article/search.php", params=keyword)
resp=resp.text
return resp
print(download_txt('宇宙职业选手'))
请教
下这个乱码怎么解决? 接下来就可以异步下载啦,多线程下载呀等等 这个可以,可以看个过瘾 <meta charset="gbk">
解码方式是gbk不是utf-8
写文件的不要打印,打印会大大降低速度 a397555462 发表于 2022-8-6 11:15
import requests
是不是没换成UTF-8 a397555462 发表于 2022-8-6 11:15
import requests
设置一下返回内容的编码 fanvalen 发表于 2022-8-6 11:36
解码方式是gbk不是utf-8
写文件的不要打印,打印会大大降低速度
大佬你好,“写文件的不要打印,打印会大大降低速度”这句话怎么解啊,能不能详细解释下,谢谢 Mahone1 发表于 2022-8-6 12:23
大佬你好,“写文件的不要打印,打印会大大降低速度”这句话怎么解啊,能不能详细解释下,谢谢
能直接写txt的就不要print,哪怕你每次只打印一个章节名字也要耗很长的时间
当然你不在意时间长短,调试打印也是可以的
当然你也可以做一个时间计时来看看打印不打印的时间差多少 fanvalen 发表于 2022-8-6 12:39
能直接写txt的就不要print,哪怕你每次只打印一个章节名字也要耗很长的时间
当然你不在意时间长短,调试 ...
好的,谢谢
页:
[1]
2