百度图片下载爬虫
本帖最后由 ping1ggg 于 2017-3-12 13:27 编辑#-*- coding:uft-8
import re
import urllib
import urllib2
def get_content(url):
"""doc."""
req = urllib2.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:46.0) Gecko/20100101 Firefox/46.0')
req.add_header('GET',url)
req.add_header('Host','tieba.baidu.com')#主机
req.add_header('Referer','http://tieba.baidu.com/f?kw=%E6%A1%8C%E9%9D%A2&tab=album&red_tag=a0654939890')
html = urllib2.urlopen(req)
content = html.read()
html.close()
return content
def get_images(info):
regex = r'https://imgsa.baidu.com/forum/abpic/item/.+.jpg'
pat = re.compile(regex)
images_code = re.findall(pat,info)
i = 0
for image_url in images_code:
print image_url
#urllib.urlretrieve(image_url,'%s.jpg' %i)
urllib.urlretrieve(image_url,'%s.jpg' %image_url)
i+=1
url = "https://tieba.baidu.com/p/1457328460#!/l/p1"
content = get_content(url)
#info = content.replace('\\','')
#print info
get_images(content) no_009 发表于 2017-3-13 21:02
学过一点,不过没怎么用urllib2.Request类。.add_header()方法挺方便的。
学习了
嗯是的
阿墨 发表于 2017-3-12 15:15
这个怎么用?
这个程序本身没用处,但是提供了一种思路,简单的给出了怎么抓取数据的方法 好东西,谢谢分享! 好东西,谢谢分享! 好东西,谢谢分享 这个怎么用?
{:1_921:}感谢楼主,复制来研究一下 Python效率不高 不过开发快捷 还是值得学习一下 爬虫还是早点升级到 Python3 比较好
到底 Unicode 相关的问题太蛋疼
urllib urllib2 在三里面合并成一个
页:
[1]
2