python爬取汉服网站图片(改进版)

应真先生 发表于 2019-8-12 00:42

本帖最后由应真先生于 2019-8-12 18:53 编辑

看了@qq58452077老哥的帖子，觉得他写的这个保存的文件夹没有原网址的标题，正好为了练手，顺便重新写了个，引入了进程池
修改了一下老哥们反映的问题，缩进问题应该是我电脑上pycharm的锅，已经修改了一下，应该没问题了

import requests
import os
import re
from lxml import etree
from multiprocessing import Pool

HEADERS = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36'
}
DETAIL_URLS_LIST = []
URL_END = 5 #抓取几页

def get_url():
for i in range(1, URL_END+1):
   url = 'http://www.52guzhuang.com/forum-59-%d.html' % i
   yield url

def get_detail_url():
urls = get_url()
for url in urls:
   response = requests.get(url, headers=HEADERS).content.decode('gbk')
   html = etree.HTML(response)
   detail_url_list = html.xpath('//*[@id="threadlist"]/div/div/div/div/div/div/a/@href')
   for detail_url in detail_url_list:
         for i in range(1, 4):
            detail_urls = detail_url + str(i) + '-1.html'
            DETAIL_URLS_LIST.append(detail_urls)

def parse_url():
try:
   for detail_url in DETAIL_URLS_LIST:
         response = requests.get(detail_url, headers=HEADERS)
         html = etree.HTML(response.content.decode('gbk'))
         imgs_title = html.xpath('//*[@id="thread_subject"]/text()')
         img_title = re.sub('。，？\?,\.《》', ' ', imgs_title)
         img_urls = html.xpath(
            '//td[@class="plc"]/div[@class="pct"]//div[@align="center"]/ignore_js_op/img[@class="zoom"]/@zoomfile')
         yield img_title, img_urls
except Exception as e:
   print(e)

def save_images(title, urls):
for url in urls:
   try:
         image_url = 'http://www.52guzhuang.com/' + url
         image = requests.get(image_url, headers=HEADERS).content
         file_path = 'img' + os.path.sep + title
         if os.path.exists(file_path) is False:
            os.makedirs(file_path)
         img_path = file_path + os.path.sep + url[-25:]
         if os.path.exists(img_path) is True:
            print('已经下载' + img_path)
         if os.path.exists(img_path) is False:
            print('正在下载' + img_path)
            with open(img_path, 'wb') as f:
               f.write(image)
   except Exception as e:
         print(e)

if __name__ == '__main__':
pool = Pool()
get_detail_url()
for title, urls in parse_url():
   pool.apply_async(save_images(title, urls))
pool.close()
pool.join()

应真先生 发表于 2019-8-12 17:04

indian806 发表于 2019-8-12 15:37
优秀，完美运行。不过我有个问题，为何每次复制的代码，我都需要手段删空格，然后tab格式，你们有方法么，a ...

是我的问题，因为我用的ide是pycharm，记得以前学习的时候好像说pycharm有哪里设置要更改一下缩进为四个空格，我更新了pycharm没有改那个设置导致的问题

qq58452077 发表于 2019-8-12 11:42

感谢！！这个坛友改进是用xpath，pool，yield。。。（图片下载详情页可能是有多页情况，创建文件夹时提取文字需要处理一下，可能有不合法字符创建文件出错）
原来写的是用WebCollector框架(这个框架现在可能不在更新，使用人不多)的Java版本。。。后面有时间发出来大家学习学习

夸克逃逸 发表于 2019-8-12 00:48

学习了，正好最近在自学python爬虫。

shuroot 发表于 2019-8-12 00:58

学习了，最近也在自学python爬虫

应真先生 发表于 2019-8-12 01:07

有一个问题，为什么我已经加载了多进程，下载速度还是这么慢？老哥们解答一下

小兔子大板牙 发表于 2019-8-12 06:03

Python 是个好东西感谢

孤独的老大哥 发表于 2019-8-12 06:43

一直学习一直爽

WIN32 发表于 2019-8-12 06:44

可以参考，下，谢谢{:1_893:}

liand88 发表于 2019-8-12 07:58

学习了..感谢分享..

wang19940311 发表于 2019-8-12 08:29

感谢分享

zyy22664488 发表于 2019-8-12 08:33

感谢分享

页: [1] 2 3 4

吾爱破解 - 52pojie.cn's Archiver

python爬取汉服网站图片(改进版)