python爬取斗破小说网

PJ11210049 发表于 2020-7-24 10:44

最近看动漫，斗破苍穹，有点痴迷，动漫看完了，开始搜小说看，一般得小说网站都有广告啥的，我找了个还不错得网站。（斗破小说才看完，下面已大主宰为例）
脚本可实现：在pycharm里去一章一章读取，在控制台输出（方便你摸鱼，别人以为你在调试代码{:1_905:}）

初次运行：输入页数

显示如下：程序会一直运行，输入u 上一章，n/其他字母，下一章

# -*- coding:utf-8 -*-
from urllib.parse import urljoin

import requests
from scrapy import Selector

def get_info(url):
response = requests.get(url)
response.encoding = response.apparent_encoding
content = Selector(text=response.text).css('#content').get()
upage = Selector(text=response.text).xpath('//*/@href').extract_first()
nextpage = Selector(text=response.text).xpath('//*/@href').extract_first()
print(content)
return upage, nextpage

def get_page(url):
u, n = get_info(url)
u = urljoin(url, u)
n = urljoin(url, n)
print(f'本章:{url.split("/")[-1].split(".")}')
# print(f'上一章:{u},下一章:{n}')
while True:
   url = input('输入u/n:')
   if url == 'u':
         url = u
   else:
         url = n
   get_page(url)

if __name__ == '__main__':
page = input('输入页数:')
url = f'https://www.doupobook.com/dazhuzai/{page}.html'
get_page(url)

fanvalen 发表于 2020-7-24 12:36

不错的练习
能分离文字就最好
再加个写文件吧
with open（“\xiaoshuo.txt”,"w",encoding="utf-8"）as f:
f.white(n)
f.close()

我还有另类下载方式
火车头下面是下载模块
https://fanvalen.lanzoui.com/ij0HBexnrxa

PJ11210049 发表于 2020-7-24 14:08

fanvalen 发表于 2020-7-24 12:36
不错的练习
能分离文字就最好
再加个写文件吧

这个很棒{:1_893:}，厉害

水煮花生 发表于 2020-7-24 15:20

学习下感谢分享

hby050701 发表于 2020-8-10 11:57

不错的东西，顶一下

starsw001 发表于 2020-8-10 16:45

fanvalen 发表于 2020-7-24 12:36
不错的练习
能分离文字就最好
再加个写文件吧

问下，你这个火车头软件是破解版的吗？

fanvalen 发表于 2020-8-10 21:18

starsw001 发表于 2020-8-10 16:45
问下，你这个火车头软件是破解版的吗？

官方免费版

zx2000 发表于 2020-8-10 22:18

fanvalen 发表于 2020-7-24 12:36
不错的练习
能分离文字就最好
再加个写文件吧

挖槽这个工具厉害了

天不黑人不归 发表于 2020-8-10 22:26

fanvalen 发表于 2020-7-24 12:36
不错的练习
能分离文字就最好
再加个写文件吧

这样才完整，膜拜大神

页: [1]

吾爱破解 - 52pojie.cn's Archiver

python爬取斗破小说网