即不咳嗽的图片后不咳嗽的小说来了

w411024 发表于 2020-9-20 13:12

本帖最后由 w411024 于 2020-9-20 14:06 编辑

上次福利过后，我认识到了很大的错误，由于散播色情图片我深感抱歉，我是来分享学习的不是来教坏小朋友的
所以这次你们就别想了我把网址删除掉了只让你们看代码和一个成品需要的自己下载吧
本次是在网上看到一些小说就感觉可以爬取下来至于什么小说你们自己脑补总共8个分类一个分类750条数据
emmm 先发一个小说下午发一个图片的仅仅只是为了学习知识请勿用于其他用途
本软件仅提供学习用途，请勿商用以及传播，请在下载24小时内删除

教程：打开输入要保存到那个位置的路径就可以了

成品：https://www.lanzoux.com/i8rAggsafdc

# UTF-8
# author mimang

import requests
from bs4 import BeautifulSoup
import os

def getHtml(url):
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
html = BeautifulSoup(response.text, 'lxml')
return html

def sub(strings, p, c):
new = []
for s in strings:
   new.append(s)
new = str(c)
return ''.join(new)

headers = {
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Accept-Encoding': 'gzip, deflate, br',
'Cookie': 'UM_distinctid=174a9141007f29-0697ac1aa46086-3971095d-19fd10-174a9141008cbb; CNZZDATA1279234273=1349150808-1600561283-%7C1600561283'
}

url = 'xxxxxxxx'
bookCount = 38

path = input('输入:')
if not(os.path.exists(path)):
os.mkdir(path)
print('路径已创建')

html = getHtml(url + '/home/index.html')
allBookUrl = html.select('#menu > ul.color > li > a')
print(len(allBookUrl)) #图书分类数量
os.chdir(path)
for a in range(1,len(allBookUrl)): #8
if not(os.path.exists(allBookUrl.get_text())):
   os.mkdir(allBookUrl.get_text())
os.chdir(allBookUrl.get_text())
for b in range(1,bookCount+1): #38
   string = allBookUrl.get('href')
   print(sub(string,21,b))
   bookHtml = getHtml(url + sub(string,21,b))
   bookList = bookHtml.select('#hellobox > div.newslist.textlist > ul > li > a')
   for c in range(0, len(bookList)): #20
         bookTitle = bookList.get_text()
         bookUrl = bookList.get('href')aa
         bookHtml2 = getHtml(url+bookUrl)
         bookContent = bookHtml2.select('#hellobox > div.newsbody > div.nbodys').get_text()
         f = open(bookTitle+'.txt','ab')
         f.write(bytes(bookContent, encoding = "utf8"))
         print(bookTitle+':成功')
f.close()

性本善 发表于 2020-9-20 17:48

w411024 发表于 2020-9-20 13:17
伸手党球球你们给个评论吧

第二个子目录会嵌套到第一个子目录当中，应该调整到输入创建的根目录下面

Natu 发表于 2020-9-20 14:41

Menguy 发表于 2020-9-20 14:11
浅谈python反编译
https://www.52pojie.cn/thread-1102117-1-1.html
(出处: 吾爱破解论坛)

哈哈哈哈……;www

w411024 发表于 2020-9-20 13:17

伸手党球球你们给个评论吧{:301_977:}

列明发表于 2020-9-20 13:26

URL=“https://www.***.com/xxx.html”

第八根电线杆 发表于 2020-9-20 13:37

什么东西

蜘蛛侠哈喽 发表于 2020-9-20 13:38

这是色*？

chesterche 发表于 2020-9-20 13:39

打开后就只有提示输入：

没有教程的吗？

1983 发表于 2020-9-20 13:49

放心，楼主要的评论跑不了，楼主要继续加油

h776100120 发表于 2020-9-20 13:59

怎么下来的全部是小说

cptw 发表于 2020-9-20 14:04

什么东西?

Menguy 发表于 2020-9-20 14:11

页: [1] 2 3

吾爱破解 - 52pojie.cn's Archiver

即不咳嗽的图片后不咳嗽的小说来了