ping1ggg 发表于 2017-3-12 13:26

百度图片下载爬虫

本帖最后由 ping1ggg 于 2017-3-12 13:27 编辑

#-*- coding:uft-8
import re
import urllib
import urllib2
def get_content(url):
    """doc."""
    req = urllib2.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:46.0) Gecko/20100101 Firefox/46.0')
    req.add_header('GET',url)
    req.add_header('Host','tieba.baidu.com')#主机
    req.add_header('Referer','http://tieba.baidu.com/f?kw=%E6%A1%8C%E9%9D%A2&tab=album&red_tag=a0654939890')
    html = urllib2.urlopen(req)
    content = html.read()
    html.close()

    return content


def get_images(info):

    regex = r'https://imgsa.baidu.com/forum/abpic/item/.+.jpg'

    pat = re.compile(regex)
    images_code = re.findall(pat,info)

    i = 0
    for image_url in images_code:
      print image_url

      #urllib.urlretrieve(image_url,'%s.jpg' %i)
      urllib.urlretrieve(image_url,'%s.jpg' %image_url)
      i+=1
      



url = "https://tieba.baidu.com/p/1457328460#!/l/p1"
content = get_content(url)
#info = content.replace('\\','')
#print info
get_images(content)

ping1ggg 发表于 2017-3-13 22:08

no_009 发表于 2017-3-13 21:02
学过一点,不过没怎么用urllib2.Request类。.add_header()方法挺方便的。
学习了

嗯是的

ping1ggg 发表于 2017-3-12 20:09

阿墨 发表于 2017-3-12 15:15
这个怎么用?

这个程序本身没用处,但是提供了一种思路,简单的给出了怎么抓取数据的方法

tujinfeng 发表于 2017-3-12 14:01

好东西,谢谢分享!

ybsypy 发表于 2017-3-12 14:39

好东西,谢谢分享!

爱挠头 发表于 2017-3-12 14:42

好东西,谢谢分享

阿墨 发表于 2017-3-12 15:15

这个怎么用?

qq491354460 发表于 2017-3-12 17:18

{:1_921:}感谢楼主,复制来研究一下

youlong34 发表于 2017-3-13 15:44

Python效率不高 不过开发快捷 还是值得学习一下

aristotllgood 发表于 2017-3-13 22:22

爬虫还是早点升级到 Python3 比较好
到底 Unicode 相关的问题太蛋疼

urllib urllib2 在三里面合并成一个
页: [1] 2
查看完整版本: 百度图片下载爬虫