PJ11210049 发表于 2020-7-24 10:44

python爬取斗破小说网

最近看动漫,斗破苍穹,有点痴迷,动漫看完了,开始搜小说看,一般得小说网站都有广告啥的,我找了个还不错得网站。(斗破小说才看完,下面已大主宰为例)
脚本可实现:在pycharm里去一章一章读取,在控制台输出(方便你摸鱼,别人以为你在调试代码{:1_905:})


初次运行:输入页数

显示如下:程序会一直运行,输入u 上一章,n/其他字母,下一章

# -*- coding:utf-8 -*-
from urllib.parse import urljoin

import requests
from scrapy import Selector


def get_info(url):
    response = requests.get(url)
    response.encoding = response.apparent_encoding
    content = Selector(text=response.text).css('#content').get()
    upage = Selector(text=response.text).xpath('//*/@href').extract_first()
    nextpage = Selector(text=response.text).xpath('//*/@href').extract_first()
    print(content)
    return upage, nextpage


def get_page(url):
    u, n = get_info(url)
    u = urljoin(url, u)
    n = urljoin(url, n)
    print(f'本章:{url.split("/")[-1].split(".")}')
    # print(f'上一章:{u},下一章:{n}')
    while True:
      url = input('输入u/n:')
      if url == 'u':
            url = u
      else:
            url = n
      get_page(url)


if __name__ == '__main__':
    page = input('输入页数:')
    url = f'https://www.doupobook.com/dazhuzai/{page}.html'
    get_page(url)

fanvalen 发表于 2020-7-24 12:36

不错的练习
能分离文字就最好
再加个写文件吧
with open(“\xiaoshuo.txt”,"w",encoding="utf-8")as f:
    f.white(n)
    f.close()

我还有另类下载方式
火车头下面是下载模块
https://fanvalen.lanzoui.com/ij0HBexnrxa



PJ11210049 发表于 2020-7-24 14:08

fanvalen 发表于 2020-7-24 12:36
不错的练习
能分离文字就最好
再加个写文件吧


这个很棒{:1_893:},厉害

水煮花生 发表于 2020-7-24 15:20

学习下 感谢分享

hby050701 发表于 2020-8-10 11:57

不错的东西,顶一下

starsw001 发表于 2020-8-10 16:45

fanvalen 发表于 2020-7-24 12:36
不错的练习
能分离文字就最好
再加个写文件吧


问下,你这个火车头软件是破解版的吗?

fanvalen 发表于 2020-8-10 21:18

starsw001 发表于 2020-8-10 16:45
问下,你这个火车头软件是破解版的吗?

官方免费版

zx2000 发表于 2020-8-10 22:18

fanvalen 发表于 2020-7-24 12:36
不错的练习
能分离文字就最好
再加个写文件吧


挖槽这个工具厉害了

天不黑人不归 发表于 2020-8-10 22:26

fanvalen 发表于 2020-7-24 12:36
不错的练习
能分离文字就最好
再加个写文件吧


这样才完整,膜拜大神
页: [1]
查看完整版本: python爬取斗破小说网