吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2759|回复: 21
收起左侧

[Python 转载] 即不咳嗽的图片后不咳嗽的小说来了

[复制链接]
w411024 发表于 2020-9-20 13:12
本帖最后由 w411024 于 2020-9-20 14:06 编辑

上次福利过后,我认识到了很大的错误,由于散播色情图片我深感抱歉,我是来分享学习的不是来教坏小朋友的
所以这次你们就别想了 我把网址删除掉了 只让你们看代码  和一个成品 需要的自己下载吧
本次是在网上看到一些小说就感觉可以爬取下来 至于什么小说你们自己脑补 总共8个分类 一个分类750条数据
emmm 先发一个小说 下午发一个图片的 仅仅只是为了学习知识 请勿用于其他用途
本软件仅提供学习用途,请勿商用以及传播,请在下载24小时内删除

教程:打开输入要保存到那个位置的路径就可以了

成品:https://www.lanzoux.com/i8rAggsafdc

[Python] 纯文本查看 复制代码
# UTF-8
# author mimang

import requests
from bs4 import BeautifulSoup
import os

def getHtml(url):
    response = requests.get(url, headers=headers)
    response.encoding = 'utf-8'
    html = BeautifulSoup(response.text, 'lxml')
    return html

def sub(strings, p, c):
    new = []
    for s in strings:
        new.append(s)
    new[p] = str(c)
    return ''.join(new)

headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Accept-Encoding': 'gzip, deflate, br',
    'Cookie': 'UM_distinctid=174a9141007f29-0697ac1aa46086-3971095d-19fd10-174a9141008cbb; CNZZDATA1279234273=1349150808-1600561283-%7C1600561283'
}

url = 'xxxxxxxx'
bookCount = 38

path = input('输入:')
if not(os.path.exists(path)):
    os.mkdir(path)
    print('路径已创建')

html = getHtml(url + '/home/index.html')
allBookUrl = html.select('#menu > ul.color > li > a')
print(len(allBookUrl)) #图书分类数量
os.chdir(path)
for a in range(1,len(allBookUrl)): #8
    if not(os.path.exists(allBookUrl[a].get_text())):
        os.mkdir(allBookUrl[a].get_text())
    os.chdir(allBookUrl[a].get_text())
    for b in range(1,bookCount+1): #38
        string = allBookUrl[a].get('href')
        print(sub(string,21,b))
        bookHtml = getHtml(url + sub(string,21,b))
        bookList = bookHtml.select('#hellobox > div.newslist.textlist > ul > li > a')
        for c in range(0, len(bookList)): #20
            bookTitle = bookList[c].get_text()
            bookUrl = bookList[c].get('href')aa
            bookHtml2 = getHtml(url+bookUrl)
            bookContent = bookHtml2.select('#hellobox > div.newsbody > div.nbodys')[0].get_text()
            f = open(bookTitle+'.txt','ab')
            f.write(bytes(bookContent, encoding = "utf8"))
            print(bookTitle+':成功')
f.close()


点评

抓下包就拿到了,还是好评了  发表于 2020-9-20 17:41

免费评分

参与人数 5吾爱币 +6 热心值 +5 收起 理由
性本善 + 2 + 1 鼓励转贴优秀软件安全工具和文档!
pal2231 + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
louxilouxi + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
Natu + 1 + 1 感觉身体被掏空……
灿烂的小居 + 1 + 1 今天感冒了,咳咳咳

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

性本善 发表于 2020-9-20 17:48
w411024 发表于 2020-9-20 13:17
伸手党球球你们给个评论吧

第二个子目录会嵌套到第一个子目录当中,应该调整到输入创建的根目录下面
Natu 发表于 2020-9-20 14:41
Menguy 发表于 2020-9-20 14:11
浅谈python反编译
https://www.52pojie.cn/thread-1102117-1-1.html
(出处: 吾爱破解论坛)

哈哈哈哈……
 楼主| w411024 发表于 2020-9-20 13:17
列明 发表于 2020-9-20 13:26
URL=“https://www.***.com/xxx.html”
第八根电线杆 发表于 2020-9-20 13:37
什么东西
蜘蛛侠哈喽 发表于 2020-9-20 13:38
这是色*?
chesterche 发表于 2020-9-20 13:39
打开后就只有提示输入:

没有教程的吗?
1983 发表于 2020-9-20 13:49
放心,楼主要的评论跑不了,楼主要继续加油
h776100120 发表于 2020-9-20 13:59
怎么下来的全部是小说
cptw 发表于 2020-9-20 14:04

什么东西?
头像被屏蔽
Menguy 发表于 2020-9-20 14:11
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 01:48

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表