python爬取彼岸壁纸http://www.netbian.com

陌路安然xs · 发表于 2021-3-16 16:13

import re
import requests
import html
import os
if os.path.exists('img'):
pass
else:
os.mkdir('img')
#定义agent
ha={
'user-agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.47'
,
'cookie':
'__cfduid=d6f5cb5a6c3911f07bd669ec3173736881612161329; xygkqecookieclassrecord=%2C7%2C; xygkqecookieztrecord=%2C6%2C; xygkqecookieinforecord=%2C7-22308%2C4-22305%2C'
,
'Referer':
'http://www.netbian.com'
}
#定义代{过}{滤}理IP
ip={'HTTP': '117.69.13.250:9999'}

#一共爬取9页
for w in range(1,10):
if w==1:
      w_url='http://www.netbian.com/meinv/index.htm'
else:
      w_url='http://www.netbian.com/meinv/index_{}.htm'.format(w)#这里输入网址
w_html=requests.get(w_url,headers=ha,proxies=ip)
w_html.encoding='gb2312'
w_data=str(html.unescape(w_html.text)).replace(' ',"")
all_urls=re.findall('<li><ahref="(.*?).htm"title="',w_data)

urls=[]
for u in all_urls:
      if 'target' in u:
         continue
      else:
         urls.append('http://www.netbian.com'+u+'-1920x1080.htm')
#下载壁纸
for i in range(len(urls)):
      l_html = requests.get(urls[i], headers=ha, proxies=ip)
      l_html.encoding = 'gb2312'
      l_data = str(html.unescape(l_html.text)).replace(' ', "")
      t_url = str(re.findall('<ahref="(.*?).jpg"title="',l_data)[0])+'.jpg'
      title=re.findall('<title>(.*?)高清大图',l_data)[0]
      file_name = title+str('.jpg')
      response = requests.get(t_url, headers=ha)
      with open('img'+'\\'+file_name, 'wb') as f:
         f.write(response.content)
      print(file_name)

南归不NG · 发表于 2021-3-16 16:28

陌路安然xs 发表于 2021-3-16 16:21
http://www.netbian.com/和https://pic.netbian.com/这两个的壁纸差不多，下载下来的图片基本都在1m左右， ...

我当成这个网站了,也是彼岸的,https://pic.netbian.com/

陌路安然xs · 发表于 2021-3-17 14:04

沉心云发表于 2021-3-17 11:21
楼主啊这，我运行了一下，爬的全都是美女壁纸，你这是在代码中加了什么，能过过滤掉其他直接爬 ...

我就只是针对这个类别进行爬取的，你去网页上看看分类就懂了

南归不NG · 发表于 2021-3-16 16:16

是抓取原图的吗?

陌路安然xs · 发表于 2021-3-16 16:21

http://www.netbian.com/和https://pic.netbian.com/这两个的壁纸差不多，下载下来的图片基本都在1m左右，应该是高清图

南归不NG · 发表于 2021-3-16 16:30

南归不NG 发表于 2021-3-16 16:28
我当成这个网站了,也是彼岸的,https://pic.netbian.com/

pic那个需要开会员才能获取原图

lovefive · 发表于 2021-3-16 16:30

南归不NG 发表于 2021-3-16 16:16
是抓取原图的吗?

是原图吗？

陌路安然xs · 发表于 2021-3-16 16:34

http://www.netbian.com/ 这个网站里面的壁纸都可以下载

南归不NG · 发表于 2021-3-16 16:35

lovefive 发表于 2021-3-16 16:30
是原图吗？

1MB 大小左右,应该算高清图,原图还差点

南归不NG · 发表于 2021-3-16 16:36

陌路安然xs 发表于 2021-3-16 16:34
http://www.netbian.com/ 这个网站里面的壁纸都可以下载

楼主可以看一下彼岸另一个网站,https://pic.netbian.com/,尝试一下

lovefive · 发表于 2021-3-16 16:38

http://www.bingimg.cn/ 这里面的应该都是4k的超清图。可以免费下载

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] python爬取彼岸壁纸http://www.netbian.com

免费评分