爬取图集谷妹子写真图

Menguy · 发表于 2020-8-8 15:39

提示: 作者被禁止或删除内容自动屏蔽

baolinguo · 发表于 2020-8-17 22:45

本帖最后由 baolinguo 于 2020-8-17 22:48 编辑

用楼主的代码修改一下，做一个自动采集https://www.tujigu.com/a/*/并自动下载的。

[Python] 纯文本查看 复制代码

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

import requests, os
from lxml import etree
import urllib
from urllib.request import urlopen
import re
 
def geturl(url):
    global list
    headers = {
        'User-Agent': 'Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Mobile Safari/537.36 Edg/84.0.522.52'
    }
    req = urllib.request.Request(url, headers=headers)
    print('1、正在打开网址...' + url)
    website = urlopen(req,timeout=120)
    html = website.read().decode('utf8')
    website.close()
    print('2、正在查找符合条件的图片网址...')
    links = re.findall('<p class="biaoti"><a  target="_blank">',html)
    list = []
    print('3、开始准备图片网址列表内容。。。')
    for link in links:
        aurl = 'https://www.tujigu.com/a/' + link +'/'
        list.append(aurl)
    print('列表内容准备完毕，下面开始下载图片。。。')
    return list
 
def downimg(imgurl):
    newcount = len(list)
    h = 1
    while h < newcount:
        url = list[h]
        print(url)
        #exit()
        headers = {
            'User-Agent': 'Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Mobile Safari/537.36 Edg/84.0.522.52'
        }
        list1 = []
        res = requests.get(url, headers=headers).text
        res = etree.HTML(res)
        title = res.xpath('/html/body/div[2]/div[1]/h1/text()')[0].encode('ISO-8859-1').decode('UTF-8')
        page = res.xpath('//*[@id="pages"]/a/text()')
        data = res.xpath('//div[@class="content"]/img/@src')
        print(title)
        for j in range(len(data)):
            print(data[j])
            list1.append(data[j])
 
        i = 2
        while i < int(page[-2]) + 1:
            urls = url + '%s.html' % i
            res = requests.get(url=urls, headers=headers).text
            res = etree.HTML(res)
            data = res.xpath('//div[@class="content"]/img/@src')
            for j in range(len(data)):
                print(data[j])
                list1.append(data[j])
            i += 1
 
        path = './%s/' % title
        if not os.path.exists(path):  # 判断如果文件不存在,则创建
            os.makedirs(path)
            print("目录创建成功")
        else:
            print("目录已经存在")
        print('开始下载！！！')
        for i in range(len(list1)):
            jpg_url = list1[i]
            res = requests.get(jpg_url).content
            with open('%s/%s.jpg' % (title, i), 'wb') as fp:
                fp.write(res)
                print('第' + str(i) + '张图片下载完成！')
        print('第' + str(h) + '个图片网址下载完成！！！')
        h += 1
if __name__ == '__main__':
    print('准备开始工作了。。。')
    page = 1
    while page <50:
        url = 'https://www.tujigu.com/zhongguo/' + str(page) +'.html'
        geturl(url)
        downimg(list)

38342175 · 发表于 2020-8-8 16:06

老狗丶发表于 2020-8-8 15:44
沙发，这上面的图有点大尺度

布料这么多你说尺度大？？？

按住Shift屏息 · 发表于 2020-8-11 09:56

38342175 发表于 2020-8-8 16:06
布料这么多你说尺度大？？？

搜索，请

老狗丶 · 发表于 2020-8-8 15:44

沙发，这上面的图有点大尺度

wybwave · 发表于 2020-8-8 15:46

这是什么软件？不懂哦

D帝ing · 发表于 2020-8-8 15:47

才发现还有这种操作

Menguy · 发表于 2020-8-8 15:48

提示: 作者被禁止或删除内容自动屏蔽

eightspace · 发表于 2020-8-8 15:49

感谢老哥，等会尝试下

小图 · 发表于 2020-8-8 15:50

这家伙，上面的图都是越拍衣服越少

讲声多谢乌蝇哥 · 发表于 2020-8-8 16:11

先收藏了，以备不时之需

小图 · 发表于 2020-8-8 16:12

能爬这网站的VIP图片不

帐号		自动登录	找回密码
密码			注册[Register]

Menguy Menguy 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	电梯直达楼主 Menguy 发表于 2020-8-8 15:39 提示: 作者被禁止或删除内容自动屏蔽
	收藏40 淘帖0 有用1 分享到朋友圈发帖前要善用【论坛搜索】功能，那里可能会有你要找的答案或者已经有人发布过相同内容了，请勿重复发帖。
	回复举报

Menguy Menguy 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	5^# 楼主\| Menguy 发表于 2020-8-8 15:48 \|楼主提示: 作者被禁止或删除内容自动屏蔽

	回复支持举报

[Python 转载] 爬取图集谷妹子写真图