LLUU_f 发表于 2020-7-22 23:51

做了一个爬取小姐姐图片的python代码

首先导入我们需要的第三方库
import requests
import parsel
然后就用我们给的地址去找到网页中我们需要的那个图片的链接,
然后处理就保存了好了
还需要创建一个img文件夹(可以在代码中创建,不过我还在学习中{:1_905:})
用一个range来爬取1-5页的(可以自行换多少页)
for page in range(1,6):
    print("-----------------正在爬取第{}页-----------------".format(page))
    url='http://www.win4000.com/meinvtag4_{}.html'.format(page)
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0'}
    response=requests.get(url,headers=headers)
    #print(response.text)
    html_data=response.text
    parse=parsel.Selector(html_data)
    data_list=parse.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall()
#print(data_list)
    for data in data_list:
      response_2=requests.get(url=data,headers=headers).text
      html_2=parsel.Selector(response_2)
      img_url=html_2.xpath('//div[@class="pic-meinv"]/a/img/@data-original').get()
      img_data=requests.get(url=img_url,headers=headers).content
      file_name=img_url.split('/')[-1]
      with open('img\\'+file_name,'wb')as f:
            f.write(img_data)
            print("正在保存"+file_name)

正己 发表于 2020-7-23 00:14

本帖最后由 正己 于 2020-7-23 00:18 编辑

创建文件代码,还有要慢慢学会封装函数

import os
if not os.path.exists('IMG'): #判断是否创建了IMG文件夹
    os.mkdir('IMG') #否则创建

xiao9798 发表于 2020-7-23 00:22

学习一下:loveliness:

Zeaf 发表于 2020-7-23 00:06

创建文件夹得os库

Timothy666 发表于 2020-7-23 00:28

{:1_918:}好像很厉害的样子 但是不会用

eneloopy 发表于 2020-7-23 00:35

小姐姐好

往昔似梦如花 发表于 2020-7-23 00:47

需要下载Python吗

不会写申论 发表于 2020-7-23 00:53

学习一下:loveliness:

haiou8077 发表于 2020-7-23 02:56

感谢分享,学习下。

keflybird 发表于 2020-7-23 04:43

好大个蜘蛛,看在小姐姐的份上,学习了。。。哈哈哈
页: [1] 2 3 4 5
查看完整版本: 做了一个爬取小姐姐图片的python代码