小远zi 发表于 2018-6-6 23:24

C++ Https 图片网络爬虫

本帖最后由 小远zi 于 2018-6-7 14:44 编辑

原创
基于WinodowsAPI(winnet.lib)
No.1 C++支持Https 开源的简单的图片爬虫

也有借鉴前人:lol,现在开源,造福后生,不藏着掖着{:1_927:}{:1_927:}全部代码在附件里面
先来说一下主要的技术点:
1. 输入起始网址,解析出主机号和路径(处理http协议和 https协议 和 ftp协议)
2. 使用winnet套接字连接服务器,获取网页html代码,然后使用正则表达式解析出图片url和其他的url。
3. 下载图片至创建的文件夹中,同时其他的url push进队列。
4. 为了使爬虫能够连续的工作,这里使用了BFS宽度优先搜索,也就是说一开始输入的网址作为起始网址,
push进队列,然后把能解析出来的网址在不重复的情况下都push进队列,每次取队列的top来执行下载操作,直到队列为空时终止。
可能存在bug 欢迎指正:Dweeqw希望加入组织,共同交流
效果在图片中,一个http的例子,https要改一下正则表达式,在此不再赘述
Help shape the future of @小远zi
接受捐赠 一分也是爱:loveliness:


wushaominkk 发表于 2018-6-7 10:35

请不要出现国内首发等敏感词语,已帮你修改下次注意!C++爬虫挺有新意,期待你下次更好的作品!

xiajin 发表于 2018-6-7 08:15

只抓图片吗?支持了,
如果支持界面操作项的供我们小白使用就好了。

zhw16868 发表于 2018-6-7 08:33

学习了,谢谢楼主分享

cooldog123pp 发表于 2018-6-7 08:36

用python分分钟搞定呀

EVANLEE 发表于 2018-6-7 08:43

厉害了,感谢分享。

beijing2006 发表于 2018-6-7 08:44

学习学习,很好de帖子!!!

夏日已末 发表于 2018-6-7 08:47

感谢楼主分享,c++大法好

骨灰盒下风流死 发表于 2018-6-7 08:54

谢谢LZ分享。。。。。

imk 发表于 2018-6-7 09:25

谢谢分享

葫芦炒鸡蛋 发表于 2018-6-7 09:29

感谢分享
页: [1] 2 3
查看完整版本: C++ Https 图片网络爬虫