吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1794|回复: 2
收起左侧

[Python 转载] 小白学爬虫不久,爬了顶点网小说半成品,希望大佬帮完善一下!!!

[复制链接]
moxiaoyu 发表于 2020-3-6 11:40



import requests
from lxml import etree
import time
import os
import re
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400'}
url = 'https://www.booktxt.com/28_28498/'
res = requests.get(url,headers=headers)
res.encoding = res.apparent_encoding
response = res.text
#print(response)
html = etree.HTML(response)
title = html.xpath("//*[@id='list']/dl/dd[1]/a/text()")
title_url = html.xpath("//*[@id='list']/dl/dd/a/@href")
pingjialianjie = 'https://www.booktxt.com/28_28498/'
real_url = []
for neirong in title_url:
    real_url.append(pingjialianjie+neirong)
    print(len(real_url))
os.chdir(os.getcwd())
if not os.path.exists(os.getcwd()+"/教官之从特种兵开始"):
    print("目录不存在,准备创建目录")
    os.mkdir("教官之从特种兵开始")
    os.chdir(os.getcwd()+"/教官之从特种兵开始")
else:
    print("目录已存在")
    os.chdir(os.getcwd()+"/教官之从特种兵开始")
localpath=os.getcwd()#原始目录
print("\n原始地址是:"+str(localpath))

for i in range(len(real_url)):
    res = requests.get(headers=headers,url=real_url)
    res.encoding = res.apparent_encoding
    response = res.text
    html = etree.HTML(response)
    word = html.xpath("//*[@id='content']/text()")
    word = str(word)
    c=word.replace(r"\xa0\xa0\xa0\xa0","")
    c=c.replace(r"'\r',","\n")
    c=c.replace(r"\r","")
    book=re.sub(r"[\'\]\[","",c)
   
    with open("教官之从特种兵开始" +".txt","a+") as f:
            print("正在下载")
            f.write("\n\n" )
            f.write(book)
            print("下载完成" + "\n")
            

免费评分

参与人数 2吾爱币 +3 热心值 +2 收起 理由
wkfy + 2 + 1 用心讨论,共获提升!
guo8122881 + 1 + 1 用心讨论,共获提升!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

放火案 发表于 2020-3-6 12:17
......................
jerome970520 发表于 2020-3-6 15:49
建议还是写函数吧,比如专门爬取、解析、创建文件、写入文件
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-17 00:24

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表