吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1315|回复: 6
收起左侧

[已解决] 求助 为啥是乱码?

[复制链接]
lihu5841314 发表于 2021-5-23 15:31
[Asm] 纯文本查看 复制代码
import requests
from  bs4 import BeautifulSoup

#爬取三国演义的所有章节和内容
if __name__ == '__main__':
    #UA伪装
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"
    }
    #对首页的内容进行爬取
    url = "https://www.shicimingju.com/book/sanguoyanyi.html"
    page_text = requests.get(url=url,headers=headers).text
    #在首页中解析出章节的标题和详情页的url
    #1.实例化BeautifulSoup对象,需要将页面的源码数据加载到该对象中
    soup = BeautifulSoup(page_text,"lxml")
    #解析出章节的标题和详情页的url
    li_list = soup.select(".book-mulu > ul > li")
    fp = open("./sanguo.txt","w",encoding="UTF-8")
    print(li_list)
    for li in li_list:
         title=li.a.string
         detail_url = "https://www.shicimingju.com" + li.a["href"]
    #对详情页发起请求,解析出章节内容
         detil_nei = requests.get(url=detail_url,headers=headers).text
    #解析出详情页中的章节内容
         page_text_nei_soup = BeautifulSoup(detil_nei,"lxml")
         dic_tag =page_text_nei_soup.find("div",class_="chapter_content")
         #解析到了章节的内容
         content = dic_tag.text
         fp.write(title+":"+content+"\n")
         print(title,”爬取成功")











发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| lihu5841314 发表于 2021-5-23 15:37
本帖最后由 lihu5841314 于 2021-5-23 15:53 编辑

已找到原因  
bluerabbit 发表于 2021-5-23 15:58
page_text = requests.get(url=url,headers=headers).text  先 encoding 一下
冥界3大法王 发表于 2021-5-23 17:44
zhorses 发表于 2021-5-23 19:30
编码的问题 试试用utf-8
夜曲 发表于 2021-5-23 22:33
原因是啥,是没解压缩吗
 楼主| lihu5841314 发表于 2021-5-24 09:24
夜曲 发表于 2021-5-23 22:33
原因是啥,是没解压缩吗

应该是源码和text的自带的自动编码格式对不上  后门用encode='utf-8'指定解决
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 02:48

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表