爬取美女图片（原创）

在外DE孩子 · 发表于 2021-3-16 23:57

import requests
import re
import time
import os

# url = 'https://www.vmgirls.com/13344.html'

def get_pic(url):
headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}

response = requests.get(url, headers=headers)
html = response.text
# print(response.text)

dir_name = re.findall('<h1 class="post-title h1">(.*?)</h1>',html)[-1]
if not os.path.exists(dir_name):
      os.mkdir(dir_name)

urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">', html)
for url_data in urls:
      # time.sleep(1)
      urls_data = "https:" + url_data
      print(urls_data)
      # 图片的名称
      file_name = urls_data.split('/')[-1]
      # print(file_name)
      response_data = requests.get(urls_data, headers = headers)
      # print(response_data.content)
      with open(dir_name + '/' + file_name, 'wb') as f:
         f.write(response_data.content)

url_list =[
'https://www.vmgirls.com/13344.html',
'https://www.vmgirls.com/15881.html',
'https://www.vmgirls.com/15400.html',
'https://www.vmgirls.com/15323.html',
'https://www.vmgirls.com/15370.html'

]

for url1 in url_list:
get_pic(url1)

ma5635 · 发表于 2021-3-17 00:25

就是来看网站的，爬取就算了，暂时看不懂！

James521 · 发表于 2021-7-7 22:45

yuleniwo 发表于 2021-3-17 08:34
谢谢分享！要是能再智能点就好了。另外vmgrils网站好卡，不知道是不是我装了ublock的原因。

这个网站就是有些卡顿，也是做了些反扒的。

褚褚先生 · 发表于 2021-3-17 00:24

修改一下格式就更完美啦

MAXminSCA · 发表于 2021-3-17 00:33

hxd直接给源码可太强了！为啥不发GitHub呢？

北岛明仁 · 发表于 2021-3-17 00:36

可以的这个。

Cd仁进 · 发表于 2021-3-17 00:49

爬取出来的图有水印吗

雾都孤尔 · 发表于 2021-3-17 01:01

有没有爬出来的样图看看效果？

云朵上de流年 · 发表于 2021-3-17 02:29

python呀！！！！！！我也在学习

红蓝黄 · 发表于 2021-3-17 02:40

可以按图识别爬取吗

z3264 · 发表于 2021-3-17 04:53

太给力了

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 爬取美女图片（原创）

免费评分