python 25行代码爬取下载某小说网站

Core.LC 发表于 2022-4-15 13:11

初学python 小破网站勿压还请手下留情
代码如下：
import requests
from bs4 import BeautifulSoup

print('打开book.wiiv.cn网站随便点击一本小说.../novel/51702.html，这个数字就是ID')
url_id = input('输入小说ID:')
url = 'http://m.book.wiiv.cn/other/chapters/id/' + url_id +'.html'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36',}
page_text = requests.get(url=url,headers=headers).text#对页面数据进行爬取
soup = BeautifulSoup(page_text,'lxml')#实例化BeautifulSoup对象，需要将页面源码数据加载到该对象中
li_list = soup.select('.xb-all-wrap > ul > li')#div .xb-all-wrap标签下的ul标签下的li标签 #解析章节标题和详情页的url
book_title=soup.h2.string#获取小说名
fileName = book_title + '.txt'
fp = open(fileName,'w',encoding='utf-8')

for li in li_list:#for循环for 迭代变量 in 字符串|列表|元组|字典|集合：在li_list里面循环li标签
title = li.a.string#循环找出a标签标题（string）
detail_url = 'http://m.book.wiiv.cn' + li.a['href']#循环找出a标签链接（href）
detail_page = requests.get(url=detail_url,headers=headers).text #对小说内容页发起请求，解析出小说内容
detail_soup = BeautifulSoup(detail_page,'lxml') #解析出详情页中相关的章节内容
div_tag = detail_soup.find('section', class_ = 'read-section jsChapterWrapper')
print(div_tag)
content = div_tag.text
content=str(content)#转换成str要不然下面报错
fp.write(title+':'+content+'\n')
print(title,'爬取成功！！！')

leonas30200 发表于 2022-4-15 16:00

向往的歌发表于 2022-4-15 15:44
请教：这段代码如何运行？（在哪里运行？）

需要python解释器。到论坛的编程语言中，找本python语言的教程，看完第一章就知道了。

minblack3 发表于 2022-4-17 10:37

poor567 发表于 2022-4-16 14:10
我pip也是装不起

因为bs4是在BeautifulSoup包里的，所以要下载的是BeautifulSoup，用这个指令：pip install BeautifulSoup

向往的歌 发表于 2022-4-15 15:44

请教：这段代码如何运行？（在哪里运行？）

向往的歌 发表于 2022-4-15 16:19

leonas30200 发表于 2022-4-15 16:00
需要python解释器。到论坛的编程语言中，找本python语言的教程，看完第一章就知道了。

谢谢指点{:1_919:}

学是以致用 发表于 2022-4-15 16:27

poor567 发表于 2022-4-15 20:40

PYcharm无法下载bs4

amwquhwqas128 发表于 2022-4-15 21:23

看起来没有错误，值得学习

qyh1989324 发表于 2022-4-15 21:31

最后应该还要一句'fp.close()'吧

xiadongming 发表于 2022-4-15 21:51

Core.LC 发表于 2022-4-16 13:59

poor567 发表于 2022-4-15 20:40
PYcharm无法下载bs4

bs4是个模块cmdpip安装

页: [1] 2 3

吾爱破解 - 52pojie.cn's Archiver

python 25行代码爬取下载某小说网站