【python】新手写的一个小说爬虫【天籁小说】

tuhaojun 发表于 2020-9-18 21:29

本帖最后由 tuhaojun 于 2020-9-18 21:32 编辑

新手，学了两三天python，爬了个比较容易爬的小说网，笔趣阁有点坑。爬着爬着就505 不知道什么机制。
看了看别人学了两三天python跟我这个比起来简直了{:1_911:}
请求大佬指点。

import requests
from bs4 import BeautifulSoup
import lxml
import re

#爬取天籁小说网小说
#url = 'https://www.23txt.com/files/article/html/60/60792/'
url = input('网址URL：\n本脚本仅支持天籁小说 \n类型：https://www.23txt.com/files/article/html/**/*****/ \n')
url_fix = input('类型：**/******/ \n')
req = requests.get (url)
req.encoding = 'GBK'
text = req.text
bf = BeautifulSoup (text,'lxml')
title = bf.find_all('div',id = 'info')
title = bf.find_all('h1')
title = title.text.replace ('h1',' ')
text_info = re.findall(r'<div id="list">.*?</div>',text,re.S)
text_info_list = re.findall (r'<dd><a href="/files/article/html/%s(.*?)">(.*?)</a>'% url_fix ,text_info)
for book in text_info_list:
text_url = book
text_name = book
text_download = url + text_url
reqs = requests.get(text_download)
reqs.encoding = 'GBK'
texts = reqs.text
texts_info = re.findall(r'<div id="content">(.*?)</div>',texts,re.S)
texts_info = texts_info.replace (' ',' ')
texts_info = texts_info.replace (';',' \n')
texts_info = texts_info.replace ('<br>',' ')
with open ('%s.txt'% title,'a+',encoding = 'GBK')as f:
   f.write ('\n\n')
   f.write (text_name)
   f.write (texts_info)
   f.write ('\n')
print (text_name)
print ('下载完成')

sbfgg 发表于 2021-5-27 20:03

网址URL：
本脚本仅支持天籁小说
类型：https://www.23txt.com/files/article/html/**/*****/
https://www.23txt.com/files/article/html/60/60792/
类型：**/******/
60/60792/
Traceback (most recent call last):
File "D:/BaiduNetdiskDownload/pylearn/pctianlai/test.py", line 26, in <module>
texts_info = re.findall(r'<div id="content">(.*?)</div>', texts, re.S)
IndexError: list index out of range

tuhaojun 发表于 2020-9-22 20:56

阿龙心也好累呀发表于 2020-9-22 20:30
笔趣阁应该是你爬取太快给检测到了 import time 每次循环停一下就好（我猜

是的今天又试了就笔趣阁有这毛病加循环暂停更慢了，本来爬的就慢
不知道多线程+循环暂停这个方案行不行

yjn866y 发表于 2020-9-18 21:46

沙发来一个

EnD丶 发表于 2020-9-18 21:47

大佬这个怎么用嗷能不能用在ygbook

nisay 发表于 2020-9-18 21:48

不错，加油

q2726699 发表于 2020-9-18 22:18

厉害厉害

tuhaojun 发表于 2020-9-18 22:19

EnD丶发表于 2020-9-18 21:47
大佬这个怎么用嗷能不能用在ygbook

不清楚没了解过这个东西

tuhaojun 发表于 2020-9-18 22:33

EnD丶发表于 2020-9-18 21:47
大佬这个怎么用嗷能不能用在ygbook

直接复制代码去跑就行了在网站找到想要的小说复制书本首页URL直接跑码就行了

twmr 发表于 2020-9-18 22:35

学习，感谢分享

simdabo 发表于 2020-9-18 22:58

正在学习中……

老头哟 发表于 2020-9-19 16:30

大佬python安装教程有木有哦，一阵头大，谢谢

页: [1] 2 3

吾爱破解 - 52pojie.cn's Archiver

【python】新手写的一个小说爬虫【天籁小说】