陌路安然xs 发表于 2021-3-16 16:13

python爬取彼岸壁纸http://www.netbian.com

import re
import requests
import html
import os
if os.path.exists('img'):
    pass
else:
    os.mkdir('img')
#定义agent
ha={
'user-agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.47'
,
'cookie':
'__cfduid=d6f5cb5a6c3911f07bd669ec3173736881612161329; xygkqecookieclassrecord=%2C7%2C; xygkqecookieztrecord=%2C6%2C; xygkqecookieinforecord=%2C7-22308%2C4-22305%2C'
,
'Referer':
'http://www.netbian.com'
}
#定义代{过}{滤}理IP
ip={'HTTP': '117.69.13.250:9999'}

#一共爬取9页
for w in range(1,10):
    if w==1:
      w_url='http://www.netbian.com/meinv/index.htm'
    else:
      w_url='http://www.netbian.com/meinv/index_{}.htm'.format(w)#这里输入网址
    w_html=requests.get(w_url,headers=ha,proxies=ip)
    w_html.encoding='gb2312'
    w_data=str(html.unescape(w_html.text)).replace(' ',"")
    all_urls=re.findall('<li><ahref="(.*?).htm"title="',w_data)

    urls=[]
    for u in all_urls:
      if 'target' in u:
            continue
      else:
            urls.append('http://www.netbian.com'+u+'-1920x1080.htm')
#下载壁纸
    for i in range(len(urls)):
      l_html = requests.get(urls, headers=ha, proxies=ip)
      l_html.encoding = 'gb2312'
      l_data = str(html.unescape(l_html.text)).replace(' ', "")
      t_url = str(re.findall('<ahref="(.*?).jpg"title="',l_data))+'.jpg'
      title=re.findall('<title>(.*?)高清大图',l_data)
      file_name = title+str('.jpg')
      response = requests.get(t_url, headers=ha)
      with open('img'+'\\'+file_name, 'wb') as f:
            f.write(response.content)
      print(file_name)



南归不NG 发表于 2021-3-16 16:28

陌路安然xs 发表于 2021-3-16 16:21
http://www.netbian.com/和https://pic.netbian.com/这两个的壁纸差不多,下载下来的图片基本都在1m左右, ...

我当成这个网站了,也是彼岸的,https://pic.netbian.com/

陌路安然xs 发表于 2021-3-17 14:04

沉心云 发表于 2021-3-17 11:21
楼主啊这,我运行了一下,爬的全都是美女壁纸,你这是在代码中加了什么,能过过滤掉其他直接爬 ...

我就只是针对这个类别进行爬取的,你去网页上看看分类就懂了

南归不NG 发表于 2021-3-16 16:16

是抓取原图的吗?

陌路安然xs 发表于 2021-3-16 16:21

http://www.netbian.com/和https://pic.netbian.com/这两个的壁纸差不多,下载下来的图片基本都在1m左右,应该是高清图

南归不NG 发表于 2021-3-16 16:30

南归不NG 发表于 2021-3-16 16:28
我当成这个网站了,也是彼岸的,https://pic.netbian.com/

pic那个需要开会员才能获取原图

lovefive 发表于 2021-3-16 16:30

南归不NG 发表于 2021-3-16 16:16
是抓取原图的吗?

是原图吗?

陌路安然xs 发表于 2021-3-16 16:34

http://www.netbian.com/ 这个网站里面的壁纸都可以下载

南归不NG 发表于 2021-3-16 16:35

lovefive 发表于 2021-3-16 16:30
是原图吗?

1MB 大小左右,应该算高清图,原图还差点

南归不NG 发表于 2021-3-16 16:36

陌路安然xs 发表于 2021-3-16 16:34
http://www.netbian.com/ 这个网站里面的壁纸都可以下载

楼主可以看一下 彼岸另一个网站,https://pic.netbian.com/,尝试一下

lovefive 发表于 2021-3-16 16:38

http://www.bingimg.cn/ 这里面的应该都是4k的超清图。可以免费下载
页: [1] 2 3
查看完整版本: python爬取彼岸壁纸http://www.netbian.com