吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2806|回复: 13
上一主题 下一主题
收起左侧

[Python 原创] anime-pictures好看壁纸爬虫

[复制链接]
跳转到指定楼层
楼主
s936505608 发表于 2023-8-24 15:14 回帖奖励
今天又发现一个壁纸网站https://anime-pictures.net/posts?page=0&lang=zh_CN  更新速度快质量也不错,果断写个爬虫拿下,公众号再也不愁素材啦!
运行脚本选订图片存储文件夹,同样的下载过的图片会存在根目录log.txt下,重新运行脚本的话,已经下载过的图片会跳过,低于200kb的图片也会跳过,可以随意调整
[Python] 纯文本查看 复制代码
import requests
from bs4 import BeautifulSoup
import os
import urllib.parse
from concurrent.futures import ThreadPoolExecutor, as_completed
from tkinter import Tk, filedialog

def download_image(img_info, log_file_path):
    img_url, image_path = img_info
    image_name = os.path.basename(image_path)

    # 追加写入log.txt
    with open(log_file_path, 'a') as log_file:
        log_file.write(f'{image_name},')
    if os.path.exists(image_path):
        print(f'Skipped image: {image_name}')
    else:
        # 获取文件大小
        response = requests.head(img_url)
        file_size = int(response.headers.get('Content-Length', 0))
        
        if file_size < 200 * 1024:  # 200KB
            print(f'Skipped image: {image_name} (File size too small)')
        else:
            image_data = requests.get(img_url).content
            with open(image_path, 'wb') as f:
                f.write(image_data)
            print(f'Downloaded image: {image_name}')

        

def download_images(url, save_path):
    # 创建保存图片的文件夹
    os.makedirs(save_path, exist_ok=True)

    page = 0
    log_file_path = os.path.join(save_path, 'log.txt')

    # 读取已下载的文件列表
    downloaded_files = []
    if os.path.exists(log_file_path):
        with open(log_file_path, 'r') as log_file:
            downloaded_files = log_file.read().split(',')

    with ThreadPoolExecutor(max_workers=2) as executor:
        while True:
            page_url = url + f'?page={page}&lang=en'

            response = requests.get(page_url)
            soup = BeautifulSoup(response.text, 'html.parser')

            img_tags = soup.find_all('img', class_='svelte-1ibbyvk')

            if not img_tags:
                break

            download_tasks = []
            for img_tag in img_tags:
                img_src = img_tag['src']
                img_path = img_src.split('previews/')[1].replace('_cp', '')
                img_url = urllib.parse.urljoin('https://images.anime-pictures.net/', img_path)

                image_name = os.path.basename(img_path)
                image_path = os.path.join(save_path, image_name)

                if image_name not in downloaded_files:
                    download_tasks.append((img_url, image_path))

            for future in as_completed(executor.submit(download_image, task, log_file_path) for task in download_tasks):
                try:
                    future.result()
                except Exception as e:
                    print(f'Error occurred: {str(e)}')

            page += 1
            print(f'当前下载第: {page}页')

# 使用文件夹选择对话框选择保存路径
root = Tk()
root.withdraw()
save_path = filedialog.askdirectory(title='选择保存路径')

if save_path:
    url = 'https://anime-pictures.net/posts'  # 替换为你的链接
    download_images(url, save_path)

免费评分

参与人数 2吾爱币 +8 热心值 +2 收起 理由
苏紫方璇 + 7 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
冬天冷了多穿点 + 1 + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

推荐
Jonathanzjy 发表于 2023-8-24 19:32
感谢分享!学习学习!
沙发
wmda 发表于 2023-8-24 15:29
不错有
诉讼

免费评分

参与人数 1吾爱币 -5 收起 理由
潇未然 -5 请勿灌水,提高回帖质量是每位会员应尽的义务!

查看全部评分

3#
5584444 发表于 2023-8-24 15:39
4#
kenxy 发表于 2023-8-24 16:11
体积好大的图片啊
5#
下载小王子 发表于 2023-8-24 16:32
学习思路,下来试试看。
6#
xiaopeng128 发表于 2023-8-24 17:25
学习思路,下来试试看
7#
bohong65 发表于 2023-8-24 17:35
什么公众号要这种素材分享一下
8#
percdd 发表于 2023-8-24 17:36
学习了  可惜不会设计程序
9#
CcCharlotte 发表于 2023-8-24 18:28
感谢大佬,学习下思路
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2025-1-11 05:40

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表