吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1753|回复: 18
收起左侧

[Python 原创] 爬某mz网模板,可以稍加改动爬取类似网站

[复制链接]
cao25468 发表于 2023-7-24 10:14
本帖最后由 cattie 于 2023-7-24 11:40 编辑

[Python] 纯文本查看 复制代码
import threading

import time

import requests

from bs4 import BeautifulSoup

import os


exitFlag = 0

base_url = 'https://[domain_altered_for_legal_concerns].org/zh/'

top_urls = []
top_tit = []

def top_url(url):
    res = requests.get(url)
    html = BeautifulSoup(res.text, 'html.parser')
    url_list = html.find_all('a', target='_blank')
    for img_url in url_list:
        img_u = img_url.get('href')
        img_t = img_url.get('title')
        top_urls.append(img_u)
        top_tit.append(img_t)
        print(img_u + '已经存入')
        create_dir(img_t)

def sec_url(url, tit):
    print('sec_url begin')
    if url != 'https://www.[domain_altered_for_legal_concerns].net/':
        print(url + '正在使用')
        res = requests.get(url)
        html = BeautifulSoup(res.text, 'html.parser')
        url_list = html.find_all('img', loading='lazy')

        for img_url in url_list:
            print(img_url)
            img_u = img_url.get('src')
            num = str(url_list.index(img_url))
            img_t = tit + num

            print(img_t, img_u)
            down_pic(img_u, tit, img_t)
    print('sec_url end')

def down_pic(url, fil1, fil2):
    res = requests.get(url)
    with open(f'D:/PycharmProjects/pythonProject2/[altered_for_legal_concerns]/{fil1}/{fil2}.jpg', 'wb') as f:
        f.write(res.content)
        print('已经下载{}'.format(fil2))

def create_dir(name):
    path = "./[altered_for_legal_concerns]/{}".format(name)
    if not os.path.exists(path):
        os.makedirs(path)

top_url(url=base_url)

threads = []
for top_ur, top_t in zip(top_urls, top_tit):
    print(top_ur + '已经取出')
    t = threading.Thread(target=sec_url, args=(top_ur, top_t))
    threads.append(t)
    t.start()

for t in threads:
    t.join()

免费评分

参与人数 2吾爱币 +8 热心值 +2 收起 理由
shangshangqian + 1 + 1 用心讨论,共获提升!
苏紫方璇 + 7 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

winneaini 发表于 2023-7-24 14:51
Arcticlyc 发表于 2023-7-24 11:32
歪曲,怎么不早说,一不小心就打开了,太尴尬了

把网址交出来让大家一起尴尬咯
htxz2022 发表于 2023-7-24 15:10
这是什么网址,被你们这么一说不敢运行代码了
lingfeng 发表于 2023-7-24 11:41
ccwuax 发表于 2023-7-24 11:18
网址好评加一个,支持楼主,感谢分享
Dream_Peng 发表于 2023-7-24 11:24
真心好评
guyuyisheng 发表于 2023-7-24 11:27
这网站有点那啥  同事都看到了
Arcticlyc 发表于 2023-7-24 11:32
歪曲,怎么不早说,一不小心就打开了,太尴尬了
weixiao222 发表于 2023-7-24 11:48
这代码看的太累,一个注释没有,看的时间自己也写完了。
只送两个头 发表于 2023-7-24 13:39
网址呢,没看到呀
初见悲风 发表于 2023-7-24 14:33
前几楼看到了什么网址,来晚了啊,发出来瞅瞅呗
CYR老陈 发表于 2023-7-24 14:46
初见悲风 发表于 2023-7-24 14:33
前几楼看到了什么网址,来晚了啊,发出来瞅瞅呗

同求啊~~~~~
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-24 20:28

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表