python爬取斗破小说网
最近看动漫,斗破苍穹,有点痴迷,动漫看完了,开始搜小说看,一般得小说网站都有广告啥的,我找了个还不错得网站。(斗破小说才看完,下面已大主宰为例)脚本可实现:在pycharm里去一章一章读取,在控制台输出(方便你摸鱼,别人以为你在调试代码{:1_905:})
初次运行:输入页数
显示如下:程序会一直运行,输入u 上一章,n/其他字母,下一章
# -*- coding:utf-8 -*-
from urllib.parse import urljoin
import requests
from scrapy import Selector
def get_info(url):
response = requests.get(url)
response.encoding = response.apparent_encoding
content = Selector(text=response.text).css('#content').get()
upage = Selector(text=response.text).xpath('//*/@href').extract_first()
nextpage = Selector(text=response.text).xpath('//*/@href').extract_first()
print(content)
return upage, nextpage
def get_page(url):
u, n = get_info(url)
u = urljoin(url, u)
n = urljoin(url, n)
print(f'本章:{url.split("/")[-1].split(".")}')
# print(f'上一章:{u},下一章:{n}')
while True:
url = input('输入u/n:')
if url == 'u':
url = u
else:
url = n
get_page(url)
if __name__ == '__main__':
page = input('输入页数:')
url = f'https://www.doupobook.com/dazhuzai/{page}.html'
get_page(url)
不错的练习
能分离文字就最好
再加个写文件吧
with open(“\xiaoshuo.txt”,"w",encoding="utf-8")as f:
f.white(n)
f.close()
我还有另类下载方式
火车头下面是下载模块
https://fanvalen.lanzoui.com/ij0HBexnrxa
fanvalen 发表于 2020-7-24 12:36
不错的练习
能分离文字就最好
再加个写文件吧
这个很棒{:1_893:},厉害 学习下 感谢分享 不错的东西,顶一下 fanvalen 发表于 2020-7-24 12:36
不错的练习
能分离文字就最好
再加个写文件吧
问下,你这个火车头软件是破解版的吗? starsw001 发表于 2020-8-10 16:45
问下,你这个火车头软件是破解版的吗?
官方免费版 fanvalen 发表于 2020-7-24 12:36
不错的练习
能分离文字就最好
再加个写文件吧
挖槽这个工具厉害了 fanvalen 发表于 2020-7-24 12:36
不错的练习
能分离文字就最好
再加个写文件吧
这样才完整,膜拜大神
页:
[1]