为什么小说内容是空白呢 print有内容

lihu5841314 · 发表于 2021-5-25 21:17

用print（“page2”）能看到每一章的内容

[Asm] 纯文本查看 复制代码

import  requests
import os
from lxml import  etree



headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"
    }
url = "https://book.qidian.com/info/1025592578#Catalog"
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
#解析出章节名称和详情页Url
li_list = tree.xpath('//*[@id="j-catalogWrap"]/div[2]/div/ul/li')
if not os.path.exists('./dagelao'):
     os.mkdir('./dagelao')
for li in li_list:
   detail_url= "https:"+  li.xpath('./a/@href')[0]
   name = li.xpath('./a/text()')[0] + ".text"
   detaii_page_text = requests.get(url=detail_url,headers=headers).text
   detail_tree = etree.HTML(detaii_page_text)
   detail_text = detail_tree.xpath('//*[@class="text-wrap"]/div/div[2]//text()')
   for page2 in detail_text:
        path = './dagelao/' + name
        with open(path,"w",encoding="UTF-8") as pf:
            pf.write(page2)

   print(name,"下载完毕")

lihu5841314 · 发表于 2021-5-25 21:30

找到原因了 with open(path,"w",encoding="UTF-8") 的“w” 不对换成a 就对了

w 每次循环都把上次的文件删掉重新创建

fanvalen · 发表于 2021-5-25 21:34

两个地方错了
第一个最为致命
with open(path,"w",encoding="UTF-8") as pf:
你这里是从列表里循环取出文本要用追加模式也就是a+

然后你的文件名后缀居然是text，妈的我差点没打开文本是txt

lihu5841314 · 发表于 2021-5-25 22:04

多谢指点

不知道改成啥 · 发表于 2021-5-26 09:25

fanvalen 发表于 2021-5-25 21:34
两个地方错了
第一个最为致命
with open(path,"w",encoding="UTF-8") as pf:

写文件最好还是改成一次性写入到文件性能比较好吧。

知心 · 发表于 2021-5-26 09:44

tanzhiwei 发表于 2021-5-26 09:25
写文件最好还是改成一次性写入到文件性能比较好吧。

看请求的数据情况吧。分多次请求到的内容不保存的话就在内存里，如果程序奔溃一下就白干了。with会自己在合适的节点关闭文件的。退一万步讲，小项目不用考虑这么多。

npfjcg · 发表于 2021-5-26 10:29

如果内存有条件的话，可以把爬取下来的文本存到内存里，比如按行存进list或者是存进字符串里

帐号		自动登录	找回密码
密码			注册[Register]

[求助] 为什么小说内容是空白呢 print有内容

免费评分