萌新基于Python3的Yande.re图片爬虫

希喵发表于 2017-3-9 11:24

前言
每天打开电脑第一件事，就是打开Y站，看看又更新了哪些图片、其中又有哪些适合作为壁纸
日久天长，总会感觉浪费时间精力，每天都要在一堆图片里找PC壁纸
这可不符合我作为一个码农的身份
正好最近想学学Python3，于是一边看着廖学峰的Python教程一边撸出来这个项目。写得很差，请轻喷
本项目基于Win7、Python3.5.2开发，其他环境下未测试
功能

[*]支持从指定的开始页码爬取到结束页码
[*]也支持从第一页爬取到上一次开始爬取的位置
[*]支持设置爬取的图片类型（全部、横图、竖图、正方形）
[*]支持最大或最小图片尺寸、宽高比限制
[*]按照当天的日期创建目录并存放爬取的图片
[*]爬取结束后会在图片目录下生成日志文件

如何使用
必须编辑Function.py第5行，将该变量的值设为自己想要的目录，程序将会自动创建，路径必须以斜杠结尾

[*]方案一：如果想要从开始页码爬到结束页码，请修改index.py第12行和第15行的两个变量；
[*]方案二：如果想要从开始页码爬取到上一次开始爬取的位置，请修改index.py第15行的值为0。还有last_start_id.data的内容，改为某张图片的id即可。爬到此图片时程序将停止。该方案下推荐将开始页码设为1，相当于每次执行都只从新增的图片中爬取

例如某图片的详情页Url为：https://yande.re/post/show/346737，则图片id为346737
然后命令行执行python index.py即可（Windows下）。Linux下可直接执行
注意事项
值得一提的是，无论使用哪种方案运行，last_start_id.data的内容都会被自动修改为爬取到的第一张图片的id
这样做的目的是为了实现方案二，相当于每次执行都只从新增的图片中爬取。比较适合设置为自动运行之类的
项目地址
https://github.com/mokeyjay/Yandere-crawler

{:301_997:}如果喜欢请给我评个分，最好Star一下，谢谢

希喵发表于 2017-3-17 11:31

55555555 发表于 2017-3-16 20:35
刚在v2ex看到你的帖子我就感觉好像见过这个帖子回52一找果然有id都一样的

{:301_992:}不管你在哪里见到这个ID基本都是我

希喵发表于 2017-3-15 18:52

米聊45673767 发表于 2017-3-10 20:25
2的库比3的库多3的兼容也没2.7的好吧😁

毕竟终将被淘汰的，就不学啦

by_l 发表于 2017-3-9 11:31

谢谢分享

A-_虚伪_！ 发表于 2017-3-9 12:02

萌新可以吃吗

黑狼战神 发表于 2017-3-9 13:36

真心，不错。

谁折南枝傍小丛 发表于 2017-3-9 15:17

收藏了感谢分享。

米聊45673767 发表于 2017-3-9 20:22

为啥基于3呢咋不基于2.7呢

希喵发表于 2017-3-10 12:21

米聊45673767 发表于 2017-3-9 20:22
为啥基于3呢咋不基于2.7呢

学习嘛，学新不学旧

米聊45673767 发表于 2017-3-10 20:25

2的库比3的库多3的兼容也没2.7的好吧😁

HuaZao 发表于 2017-3-15 15:41

最近也在学习参考下

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

萌新基于Python3的Yande.re图片爬虫