爬回车美女壁纸

yijiuxiaole 发表于 2021-12-21 19:07

本帖最后由 yijiuxiaole 于 2021-12-21 19:16 编辑

我白票好久了。终于发次贴了。
第一次发帖，如果不好请多多照料
学了爬虫没多久，今天实在无聊，就写了一个爬虫，爬取壁纸的小姐姐
我的命名很随意的，标识符我感觉都能把我愁死，所以咋简单咋来吧！
没有上多线程，慢慢来吧。
大佬误喷哈
网页全是静态的所以不多说了上代码代码如果有什么不好的地方可以一起交流下

```
import time
import re
import os

import requests

headers = {
'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'
}
for z in range(1,10): # 更改页数
print('正在下载第{}页'.format(z))
url = 'https://mm.enterdesk.com/{z}.html'
resp = requests.get(url,headers=headers)
list1 = []
urls = re.findall(r'<div><a href="(?P<href>.*?)" target="_blank">(?P<name>.*?)</a>',resp.text,re.S)
for i in urls:
   name = i.strip()
   if not os.path.exists(name):
         os.mkdir(name)
   urls1 = i
   resp1 = requests.get(url=urls1,headers=headers).text
   aa = re.finditer(r'class="pics_pics ".*?href="/bizhi/(?P<href>.*?)".*?title="{}'.format(name),resp1,re.S)
   for i in aa:
         aaa = 'https://mm.enterdesk.com/bizhi/' + i.group('href')
         # print(aaa)
         resp2 = requests.get(url=aaa,headers=headers).text
         dd = re.findall(r' var original_pic = "(.*?)";', resp2, re.S)
         list1.append(dd)
   cc = re.findall(r' var original_pic = "(.*?)";',resp1,re.S)
   list1.append(cc)
   c = 0
   for ii in list1:
         c += 1
         name1 = f'{name}{c}'
         with open(f'{name}/{name1}.jpg','wb') as f:
            f.write(requests.get(url=ii,headers=headers).content)
            print(f'{name1}保存完成')
            time.sleep(2) # 不要太快
            print('休息两秒哦~')

```

zzyang115 发表于 2021-12-21 21:57

对于我这样的小白，你不给教程我就只能看看，顺便给个赞

李杨发表于 2021-12-22 04:45

没有成品差评{:17_1085:}

clocks 发表于 2021-12-21 22:30

我最喜欢爬小姐姐了

chunhwa 发表于 2021-12-21 22:30

谢谢分享。

space218 发表于 2021-12-21 23:42

谢谢分享，先手动浏览一遍！:lol

tbloy 发表于 2021-12-22 00:04

小姐姐，我们来了。支持

photo土豆 发表于 2021-12-22 00:17

支持，支持，还是支持

jixiang 发表于 2021-12-22 06:21

谢谢分享

龍謹发表于 2021-12-22 07:09

谢谢，学习一下，我也去爬爬看。

页: [1] 2 3 4

吾爱破解 - 52pojie.cn's Archiver

爬回车美女壁纸