好友
阅读权限10
听众
最后登录1970-1-1
|
希喵
发表于 2017-3-9 11:24
前言
每天打开电脑第一件事,就是打开Y站,看看又更新了哪些图片、其中又有哪些适合作为壁纸
日久天长,总会感觉浪费时间精力,每天都要在一堆图片里找PC壁纸
这可不符合我作为一个码农的身份
正好最近想学学Python3,于是一边看着廖学峰的Python教程一边撸出来这个项目。写得很差,请轻喷
本项目基于Win7、Python3.5.2开发,其他环境下未测试
功能
- 支持从指定的开始页码爬取到结束页码
- 也支持从第一页爬取到上一次开始爬取的位置
- 支持设置爬取的图片类型(全部、横图、竖图、正方形)
- 支持最大或最小图片尺寸、宽高比限制
- 按照当天的日期创建目录并存放爬取的图片
- 爬取结束后会在图片目录下生成日志文件
如何使用
必须 编辑Function.py第5行,将该变量的值设为自己想要的目录,程序将会自动创建,路径必须以斜杠结尾
- 方案一:如果想要从开始页码爬到结束页码,请修改index.py第12行和第15行的两个变量;
- 方案二:如果想要从开始页码爬取到上一次开始爬取的位置,请修改index.py第15行的值为0。还有last_start_id.data的内容,改为某张图片的id即可。爬到此图片时程序将停止。该方案下推荐将开始页码设为1,相当于每次执行都只从新增的图片中爬取
例如某图片的详情页Url为:https://yande.re/post/show/346737,则图片id为346737
然后命令行执行python index.py即可(Windows下)。Linux下可直接执行
注意事项
值得一提的是,无论使用哪种方案运行,last_start_id.data的内容都会被自动修改为爬取到的第一张图片的id
这样做的目的是为了实现方案二,相当于每次执行都只从新增的图片中爬取。比较适合设置为自动运行之类的
项目地址
https://github.com/mokeyjay/Yandere-crawler
如果喜欢请给我评个分,最好Star一下,谢谢 |
免费评分
-
查看全部评分
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|