usg1024 发表于 2017-12-7 16:48

新收教程:如何做一只优雅的爬虫(python3)

嘻嘻嘻,python爬虫你准备好了吗
python3网络爬虫 爬取一些图片
1.需要材料:python3 、urllib库。python可以利用urllib访问互联网,在py2的时代除了urllib模块还要urllib2模块(对urllib的补充),不得不说py2真的很混乱。。。到了py3中urllib得到同一合并,就叫urllib。2.爬取网址:http://placekitten.com/(这是一个快速简单的服务,获取图片的小猫用作占位符在您的设计或代码。只需将您的图片大小(宽度和高度)放在这个网址后面,即可获得一张你输入大小的图片。)像这样:http://placekitten.com/g/300/300
废话不多说,直接上教程
import urllib.request #为打开url提供的可扩展类库
response=urllib.request.urlopen("http://placekitten.com/g/300/300") #打开网址URL,这可以是一个字符串或一个 Request对象
cat_img=response.read() #返回的responses是一个类文件,需要read打开
with open("cat_300_300.jpg","wb") as f: #使用with语句处理可能出现的异常
    f.write(cat_img) #保存图片


一只可爱的小猫就静静地躺在你电脑里了
是不是很简单,嘻嘻嘻!!

juedi998 发表于 2017-12-25 23:42

唯一丶 发表于 2017-12-15 08:24
那是因为你爬的都是简单网页……需求简单 遇到复杂的你就懂了

不知你说的复杂是有多复杂,哈哈,反正我打从学了正则后,就基本很少用bs4去解析,包括js渲染的页面,或者那些所谓不规则的页面,其实它们都是有规则可循的

dragonfzj 发表于 2018-8-20 23:17

juedi998 发表于 2017-12-25 23:42
不知你说的复杂是有多复杂,哈哈,反正我打从学了正则后,就基本很少用bs4去解析,包括js渲染的页面,或 ...

正则也有不好用的时候,比如用scrapy的时候,因为支持不好,速度就很慢……

唯一丶 发表于 2017-12-7 16:59

都用了 Python3了就更应该尝试Requests和Lxml。BS4了

晨熙_ 发表于 2017-12-7 17:03

六度 发表于 2017-12-7 17:21

晨熙_ 发表于 2017-12-7 17:03
这小猫咪真是贼挤吧渴爱,好像把她卖了换钱

其实做烤串也不错

Jamesstrange 发表于 2017-12-7 19:49

小白篇,言简意赅

Xw丶小威 发表于 2017-12-7 22:28

优雅的虫子变成了猫。

psx1lin 发表于 2017-12-8 08:51

幾行而已
值得研究一下

五五66 发表于 2017-12-8 12:44

嗯额,正在学爬虫。拿回家研究研究!

vr4u 发表于 2017-12-8 14:17

全都是调用,这很丸美。

bingleiwl 发表于 2017-12-8 16:26

后期的数据清洗,很烦
页: [1] 2 3 4
查看完整版本: 新收教程:如何做一只优雅的爬虫(python3)