百度图片下载爬虫

ping1ggg · 发表于 2017-3-12 13:26

本帖最后由 ping1ggg 于 2017-3-12 13:27 编辑

#-*- coding：uft-8
import re
import urllib
import urllib2
def get_content(url):
"""doc."""
req = urllib2.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:46.0) Gecko/20100101 Firefox/46.0')
req.add_header('GET',url)
req.add_header('Host','tieba.baidu.com')#主机
req.add_header('Referer','http://tieba.baidu.com/f?kw=%E6%A1%8C%E9%9D%A2&tab=album&red_tag=a0654939890')
html = urllib2.urlopen(req)
content = html.read()
html.close()

return content

def get_images(info):

regex = r'https://imgsa.baidu.com/forum/abpic/item/.+.jpg'

pat = re.compile(regex)
images_code = re.findall(pat,info)

i = 0
for image_url in images_code:
      print image_url

      #urllib.urlretrieve(image_url,'%s.jpg' %i)
      urllib.urlretrieve(image_url,'%s.jpg' %image_url[41:-4])
      i+=1


url = "https://tieba.baidu.com/p/1457328460#!/l/p1"
content = get_content(url)
#info = content.replace('\\','')
#print info
get_images(content)

ping1ggg · 发表于 2017-3-13 22:08

no_009 发表于 2017-3-13 21:02
学过一点，不过没怎么用urllib2.Request类。.add_header()方法挺方便的。
学习了

嗯是的

ping1ggg · 发表于 2017-3-12 20:09

阿墨发表于 2017-3-12 15:15
这个怎么用？

这个程序本身没用处，但是提供了一种思路，简单的给出了怎么抓取数据的方法

tujinfeng · 发表于 2017-3-12 14:01

好东西，谢谢分享！

ybsypy · 发表于 2017-3-12 14:39

好东西，谢谢分享！

爱挠头 · 发表于 2017-3-12 14:42

好东西，谢谢分享

阿墨 · 发表于 2017-3-12 15:15

这个怎么用？

qq491354460 · 发表于 2017-3-12 17:18

感谢楼主，复制来研究一下

youlong34 · 发表于 2017-3-13 15:44

Python效率不高不过开发快捷还是值得学习一下

aristotllgood · 发表于 2017-3-13 22:22

爬虫还是早点升级到 Python3 比较好
到底 Unicode 相关的问题太蛋疼

urllib urllib2 在三里面合并成一个

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 百度图片下载爬虫

免费评分