新手初写python爬虫—— 一篇小说

luoluoovo 发表于 2018-6-25 14:44

本帖最后由 luoluoovo 于 2018-6-27 12:23 编辑

0基础学了一星期爬虫，写出来的代码
感谢wushaominkk的教程
https://www.52pojie.cn/thread-713042-1-1.html
其中改了很多错误，最后写成这样子，在吾爱好久了，一直都是潜水的，自己写出来的第一个代码也跟大家分享一下
希望大家多多指教！有什么需要改进的希望不吝赐教！

这是刚开始练手，写的第一章的爬虫，就只能爬一章。
import re
import urllib.request
import os
url="https://read.qidian.com/chapter/_AaqI-dPJJ4uTkiRw_sFYA2/eSlFKP1Chzg1"
page=urllib.request.urlopen(url).read()
page=page.decode('UTF-8')
pachong=r'p>\u3000\u3000(.+?)<'
html=re.findall(pachong,page,re.S)

def mkdir(path):
floder=os.path.exists(path)
if not floder:
   os.mkdir(path)
   print("创建成功")
else:
   print("文件已存在")
img_path="E:/txt/"
mkdir(img_path)
i=0
for line in html:
line = html
print(line)
f = open(img_path + "2.txt", "a")#a代表追加模式，不覆盖
f.write(line+"\n")
f.close()
i = i + 1

这是后面改完的完整版，能爬一篇小说
相比于第一个代码，多了append函数
(由于论坛的符号识别问题，获取书名的过滤符号换了一下)
(发现了原来的代码重复运行就会出错，于是增加了shutil函数，如果重复运行就删除重复的操作并提醒)
import re
import urllib.request
import os
import shutil

def mkdir(path):          #创建文件夹
floder=os.path.exists(path)
if not floder:
   os.makedirs(path)
   print("创建成功")
else:
   print("文件已存在")
img_path="E:/txt/txt/"
mkdir(img_path)

z = 0
url = []
link = "https://read.qidian.com/chapter/-hR5nsEj2z2RTIpqx7GUJA2/btHTPdR_GjzM5j8_3RRvhw2"#url为第几页就从第几页开始获取
for read in (range(0,5)):#下载几章，这里默认5章
url.append(link) #append() 方法用于在列表末尾添加新的对象。
page = urllib.request.urlopen(url).read().decode('UTF-8')
filter_page= r'p>\u3000\u3000(.+?)<' #小说的文本<p>　****<p>　\u3000 代表空格
html = re.findall(filter_page, page, re.S)
filter_bookname = r'60c;</em>(.+?)</a>'
bookname = re.findall(filter_bookname, page, re.S)

filter_chaptername= r'<h3 class="j_chapterName">(.+?)</h3>'#<h3 class="j_chapterName">第4章继任者</h3>
chaptername = re.findall(filter_chaptername,page, re.S)#获取章节和章节名字
i = 0
for txt in html:
   line = html
   f = open(img_path+ chaptername+".txt", "a")# a代表追加模式，不覆盖
   f.write(line + "\n")
   f.close()
   i = i + 1
print(chaptername+"下载完成")

next = r'<a id="j_chapterNext".+?href="//(.+?)"'#<a id="j_chapterNext" href="//read.qidian.com/chapter/HZe9IzSe3h3iUReBXKVubw2/mvMfZ61JMBHM5j8_3RRvhw2" data-eid="qd_R109" >下一章</a>
nextread = re.findall(next, page, re.S)
b = ''
link = "https://" + b.join(nextread)# 本页的下一章链接
z = z + 1
img_path2="E:/txt/"+bookname

c=0
if not os.path.exists(img_path2):
os.rename(img_path, img_path2)#文件夹重命名
print("下载完成")
else:
path="E:/txt/txt/"
shutil.rmtree(path)
print("文件名:"+bookname+" 已存在,请务重复操作")
就只能写到这样了，如果还有改进我还会发出来的！（爬多本书）

luoluoovo 发表于 2018-6-25 15:06

qq353324582 发表于 2018-6-25 15:05
只有我想问这是什么小说么看名字有点像盗墓笔记喜欢的类型

圣墟，我最近在看！盗墓笔记我也很喜欢

luoluoovo 发表于 2018-8-30 09:19

xiao9640 发表于 2018-8-30 09:15
那些要订阅的网站要怎么爬？

找接口爬，如果需要登陆就模拟登陆

小不点吃鱼 发表于 2018-6-25 14:58

支持一下，有时间也学学，自己写个爬虫

qq353324582 发表于 2018-6-25 15:05

只有我想问这是什么小说么看名字有点像盗墓笔记喜欢的类型

Do_zh 发表于 2018-6-25 15:06

路过支持一下。

小小超 发表于 2018-6-25 16:09

辰东的肾虚

影子无爱 发表于 2018-6-25 16:29

爬的起点？起点有收费，可以爬一写免费的网站{:1_918:}

等了快半年 发表于 2018-6-25 16:29

很好,很强大

410791007 发表于 2018-6-25 16:41

这个要怎么用？

luoluoovo 发表于 2018-6-25 16:44

下载python，然后复制保存后缀名为.py 就能运行了，我这里只是简单的爬了一下起点的，把小说链接和章节数换一下就行了

页: [1] 2 3 4 5 6 7 8 9 10

吾爱破解 - 52pojie.cn's Archiver

新手初写python爬虫—— 一篇小说