吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 20566|回复: 66
上一主题 下一主题
收起左侧

[Python 转载] 爬取图集谷妹子写真图

  [复制链接]
头像被屏蔽
跳转到指定楼层
楼主
Menguy 发表于 2020-8-8 15:39 回帖奖励
提示: 作者被禁止或删除 内容自动屏蔽

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

来自 56#
baolinguo 发表于 2020-8-17 22:45
本帖最后由 baolinguo 于 2020-8-17 22:48 编辑

用楼主的代码修改一下,做一个自动采集https://www.tujigu.com/a/*/并自动下载的。
[Python] 纯文本查看 复制代码
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
import requests, os
from lxml import etree
import urllib
from urllib.request import urlopen
import re
 
def geturl(url):
    global list
    headers = {
        'User-Agent': 'Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Mobile Safari/537.36 Edg/84.0.522.52'
    }
    req = urllib.request.Request(url, headers=headers)
    print('1、正在打开网址...' + url)
    website = urlopen(req,timeout=120)
    html = website.read().decode('utf8')
    website.close()
    print('2、正在查找符合条件的图片网址...')
    links = re.findall('<p class="biaoti"><a  target="_blank">',html)
    list = []
    print('3、开始准备图片网址列表内容。。。')
    for link in links:
        aurl = 'https://www.tujigu.com/a/' + link +'/'
        list.append(aurl)
    print('列表内容准备完毕,下面开始下载图片。。。')
    return list
 
def downimg(imgurl):
    newcount = len(list)
    h = 1
    while h < newcount:
        url = list[h]
        print(url)
        #exit()
        headers = {
            'User-Agent': 'Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Mobile Safari/537.36 Edg/84.0.522.52'
        }
        list1 = []
        res = requests.get(url, headers=headers).text
        res = etree.HTML(res)
        title = res.xpath('/html/body/div[2]/div[1]/h1/text()')[0].encode('ISO-8859-1').decode('UTF-8')
        page = res.xpath('//*[@id="pages"]/a/text()')
        data = res.xpath('//div[@class="content"]/img/@src')
        print(title)
        for j in range(len(data)):
            print(data[j])
            list1.append(data[j])
 
        i = 2
        while i < int(page[-2]) + 1:
            urls = url + '%s.html' % i
            res = requests.get(url=urls, headers=headers).text
            res = etree.HTML(res)
            data = res.xpath('//div[@class="content"]/img/@src')
            for j in range(len(data)):
                print(data[j])
                list1.append(data[j])
            i += 1
 
        path = './%s/' % title
        if not os.path.exists(path):  # 判断如果文件不存在,则创建
            os.makedirs(path)
            print("目录创建成功")
        else:
            print("目录已经存在")
        print('开始下载!!!')
        for i in range(len(list1)):
            jpg_url = list1[i]
            res = requests.get(jpg_url).content
            with open('%s/%s.jpg' % (title, i), 'wb') as fp:
                fp.write(res)
                print('第' + str(i) + '张图片下载完成!')
        print('第' + str(h) + '个图片网址下载完成!!!')
        h += 1
if __name__ == '__main__':
    print('准备开始工作了。。。')
    page = 1
    while page <50:
        url = 'https://www.tujigu.com/zhongguo/' + str(page) +'.html'
        geturl(url)
        downimg(list)
推荐
38342175 发表于 2020-8-8 16:06
推荐
按住Shift屏息 发表于 2020-8-11 09:56
沙发
老狗丶 发表于 2020-8-8 15:44
沙发 ,这上面的图有点大尺度
3#
wybwave 发表于 2020-8-8 15:46
这是什么软件?不懂哦
4#
D帝ing 发表于 2020-8-8 15:47
才发现还有这种操作
头像被屏蔽
5#
 楼主| Menguy 发表于 2020-8-8 15:48 |楼主
提示: 作者被禁止或删除 内容自动屏蔽
6#
eightspace 发表于 2020-8-8 15:49
感谢老哥,等会尝试下
7#
小图 发表于 2020-8-8 15:50
这家伙,上面的图都是越拍衣服越少
9#
讲声多谢乌蝇哥 发表于 2020-8-8 16:11
先收藏了,以备不时之需
10#
小图 发表于 2020-8-8 16:12
能爬这网站的VIP图片不
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2025-4-10 18:47

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表