爬某mz网模板，可以稍加改动爬取类似网站

cao25468 发表于 2023-7-24 10:14

本帖最后由 cattie 于 2023-7-24 11:40 编辑

import threading

import time

import requests

from bs4 import BeautifulSoup

import os

exitFlag = 0

base_url = 'https://.org/zh/'

top_urls = []
top_tit = []

def top_url(url):
res = requests.get(url)
html = BeautifulSoup(res.text, 'html.parser')
url_list = html.find_all('a', target='_blank')
for img_url in url_list:
   img_u = img_url.get('href')
   img_t = img_url.get('title')
   top_urls.append(img_u)
   top_tit.append(img_t)
   print(img_u + '已经存入')
   create_dir(img_t)

def sec_url(url, tit):
print('sec_url begin')
if url != 'https://www..net/':
   print(url + '正在使用')
   res = requests.get(url)
   html = BeautifulSoup(res.text, 'html.parser')
   url_list = html.find_all('img', loading='lazy')

   for img_url in url_list:
         print(img_url)
         img_u = img_url.get('src')
         num = str(url_list.index(img_url))
         img_t = tit + num

         print(img_t, img_u)
         down_pic(img_u, tit, img_t)
print('sec_url end')

def down_pic(url, fil1, fil2):
res = requests.get(url)
with open(f'D:/PycharmProjects/pythonProject2//{fil1}/{fil2}.jpg', 'wb') as f:
   f.write(res.content)
   print('已经下载{}'.format(fil2))

def create_dir(name):
path = ".//{}".format(name)
if not os.path.exists(path):
   os.makedirs(path)

top_url(url=base_url)

threads = []
for top_ur, top_t in zip(top_urls, top_tit):
print(top_ur + '已经取出')
t = threading.Thread(target=sec_url, args=(top_ur, top_t))
threads.append(t)
t.start()

for t in threads:
t.join()

winneaini 发表于 2023-7-24 14:51

Arcticlyc 发表于 2023-7-24 11:32
歪曲，怎么不早说，一不小心就打开了，太尴尬了

把网址交出来让大家一起尴尬咯{:1_886:}

htxz2022 发表于 2023-7-24 15:10

这是什么网址，被你们这么一说不敢运行代码了

lingfeng 发表于 2023-7-24 11:41

一大早就发福利~~楼主、膜拜

ccwuax 发表于 2023-7-24 11:18

网址好评加一个,支持楼主,感谢分享

Dream_Peng 发表于 2023-7-24 11:24

真心好评

guyuyisheng 发表于 2023-7-24 11:27

这网站有点那啥同事都看到了:Dweeqw

Arcticlyc 发表于 2023-7-24 11:32

歪曲，怎么不早说，一不小心就打开了，太尴尬了

weixiao222 发表于 2023-7-24 11:48

这代码看的太累，一个注释没有，看的时间自己也写完了。

只送两个头 发表于 2023-7-24 13:39

网址呢，没看到呀{:301_999:}

初见悲风 发表于 2023-7-24 14:33

前几楼看到了什么网址，来晚了啊，发出来瞅瞅呗

CYR老陈 发表于 2023-7-24 14:46

初见悲风发表于 2023-7-24 14:33
前几楼看到了什么网址，来晚了啊，发出来瞅瞅呗

同求啊~~~~~

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

爬某mz网模板，可以稍加改动爬取类似网站