subney 发表于 2021-8-1 14:42

scrapy小爬虫,下载必应壁纸

使用python的scrapy框架。
有了scrapy之后,原始的requests突然就不香了……

使用方法
1、安装scrapy
pip install scrapy

2、解压爬虫,在有scrapy.cfg文件的目录打开命令行


3、命令行输入启动命令
scrapy crawl wallpaper -a page=81 -a dir=-1 -o image.jl
#-a page=爬取的起始页面
#-a dir=爬取方向,-1往前爬(页码变小),1往后爬(页码变大),其他数字应该会爆bug……
#爬到首页或尾页后自动停止(应该会停止吧……)
#以上参数可空,从第一页开始爬
#-o image.jl 输出爬取的图片记录,可省略

4、生成的额外文件
#XXX.log:输出调试信息
#image.jl:图片信息
#record.log:已经爬取的图片记录,下次启动可以跳过已经下载的图片

4、其他说明
#网站有反爬机制,大概爬了400多张图就要封ip,歇个半天,可以继续。
#有兴趣的童鞋,可以稍微学一学scrapy,更改爬取的目标网站。

5、爬虫文件


6、成品壁纸:400多张

复制这段内容后打开百度网盘手机App,操作更方便哦 链接:https://pan.baidu.com/s/1vXMoCWTaBlzPGL7KztXNpQ 提取码:c5q4--来自百度网盘超级会员V5的分享

subney 发表于 2021-8-3 08:52

光头鸠摩智 发表于 2021-8-2 21:35
这个导出的图片都比网站正常下载的要小,希望楼主可以改进一下!

没有啊,都是1080p分辨率的。
文件小是因为有的图片中的颜色少,被压缩了。

骑狗的猴子 发表于 2021-8-1 17:06

写得挺好的   对于框架的学习很有帮助

Qq76761043 发表于 2021-8-1 17:15

感谢楼主慷慨分享!!!!!!!!!

52hnhao 发表于 2021-8-1 17:38

感谢楼主分享,认真学习

NaZio 发表于 2021-8-1 18:00

谢谢分享

yyb414 发表于 2021-8-1 19:02

有框架就省事多了

香芋 发表于 2021-8-1 20:09

感谢分享

Tank2021 发表于 2021-8-2 15:16

感谢楼主分享,有空研究研究。

光头鸠摩智 发表于 2021-8-2 21:35

页: [1] 2
查看完整版本: scrapy小爬虫,下载必应壁纸