做了一个爬取小姐姐图片的python代码

LLUU_f 发表于 2020-7-22 23:51

首先导入我们需要的第三方库
import requests
import parsel
然后就用我们给的地址去找到网页中我们需要的那个图片的链接，
然后处理就保存了好了
还需要创建一个img文件夹（可以在代码中创建，不过我还在学习中{:1_905:}）
用一个range来爬取1-5页的（可以自行换多少页）
for page in range(1,6):
print("-----------------正在爬取第{}页-----------------".format(page))
url='http://www.win4000.com/meinvtag4_{}.html'.format(page)
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0'}
response=requests.get(url,headers=headers)
#print(response.text)
html_data=response.text
parse=parsel.Selector(html_data)
data_list=parse.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall()
#print(data_list)
for data in data_list:
   response_2=requests.get(url=data,headers=headers).text
   html_2=parsel.Selector(response_2)
   img_url=html_2.xpath('//div[@class="pic-meinv"]/a/img/@data-original').get()
   img_data=requests.get(url=img_url,headers=headers).content
   file_name=img_url.split('/')[-1]
   with open('img\\'+file_name,'wb')as f:
         f.write(img_data)
         print("正在保存"+file_name)

正己发表于 2020-7-23 00:14

本帖最后由正己于 2020-7-23 00:18 编辑

创建文件代码，还有要慢慢学会封装函数

import os
if not os.path.exists('IMG'): #判断是否创建了IMG文件夹
os.mkdir('IMG') #否则创建

xiao9798 发表于 2020-7-23 00:22

学习一下:loveliness:

Zeaf 发表于 2020-7-23 00:06

创建文件夹得os库

Timothy666 发表于 2020-7-23 00:28

{:1_918:}好像很厉害的样子但是不会用

eneloopy 发表于 2020-7-23 00:35

小姐姐好

往昔似梦如花 发表于 2020-7-23 00:47

需要下载Python吗

不会写申论 发表于 2020-7-23 00:53

学习一下:loveliness:

haiou8077 发表于 2020-7-23 02:56

感谢分享，学习下。

keflybird 发表于 2020-7-23 04:43

好大个蜘蛛，看在小姐姐的份上，学习了。。。哈哈哈

页: [1] 2 3 4 5

吾爱破解 - 52pojie.cn's Archiver

做了一个爬取小姐姐图片的python代码