新收教程：如何做一只优雅的爬虫（python3）

usg1024 发表于 2017-12-7 16:48

嘻嘻嘻，python爬虫你准备好了吗
python3网络爬虫爬取一些图片
1.需要材料：python3 、urllib库。python可以利用urllib访问互联网，在py2的时代除了urllib模块还要urllib2模块（对urllib的补充)，不得不说py2真的很混乱。。。到了py3中urllib得到同一合并，就叫urllib。2.爬取网址：http://placekitten.com/（这是一个快速简单的服务，获取图片的小猫用作占位符在您的设计或代码。只需将您的图片大小（宽度和高度）放在这个网址后面，即可获得一张你输入大小的图片。）像这样：http://placekitten.com/g/300/300
废话不多说，直接上教程
import urllib.request #为打开url提供的可扩展类库
response=urllib.request.urlopen("http://placekitten.com/g/300/300") #打开网址URL,这可以是一个字符串或一个 Request对象
cat_img=response.read() #返回的responses是一个类文件，需要read打开
with open("cat_300_300.jpg","wb") as f: #使用with语句处理可能出现的异常
f.write(cat_img) #保存图片

一只可爱的小猫就静静地躺在你电脑里了
是不是很简单，嘻嘻嘻！！

juedi998 发表于 2017-12-25 23:42

唯一丶发表于 2017-12-15 08:24
那是因为你爬的都是简单网页……需求简单遇到复杂的你就懂了

不知你说的复杂是有多复杂，哈哈，反正我打从学了正则后，就基本很少用bs4去解析，包括js渲染的页面，或者那些所谓不规则的页面，其实它们都是有规则可循的

dragonfzj 发表于 2018-8-20 23:17

juedi998 发表于 2017-12-25 23:42
不知你说的复杂是有多复杂，哈哈，反正我打从学了正则后，就基本很少用bs4去解析，包括js渲染的页面，或 ...

正则也有不好用的时候，比如用scrapy的时候，因为支持不好，速度就很慢……

唯一丶 发表于 2017-12-7 16:59

都用了 Python3了就更应该尝试Requests和Lxml。BS4了

晨熙_ 发表于 2017-12-7 17:03

六度发表于 2017-12-7 17:21

晨熙_ 发表于 2017-12-7 17:03
这小猫咪真是贼挤吧渴爱，好像把她卖了换钱

其实做烤串也不错

Jamesstrange 发表于 2017-12-7 19:49

小白篇，言简意赅

Xw丶小威 发表于 2017-12-7 22:28

优雅的虫子变成了猫。

psx1lin 发表于 2017-12-8 08:51

幾行而已
值得研究一下

五五66 发表于 2017-12-8 12:44

嗯额，正在学爬虫。拿回家研究研究！

vr4u 发表于 2017-12-8 14:17

全都是调用，这很丸美。

bingleiwl 发表于 2017-12-8 16:26

后期的数据清洗,很烦

页: [1] 2 3 4

吾爱破解 - 52pojie.cn's Archiver

新收教程：如何做一只优雅的爬虫（python3）