C++ Https 图片网络爬虫
本帖最后由 小远zi 于 2018-6-7 14:44 编辑原创
基于WinodowsAPI(winnet.lib)
No.1 C++支持Https 开源的简单的图片爬虫
也有借鉴前人:lol,现在开源,造福后生,不藏着掖着{:1_927:}{:1_927:}全部代码在附件里面
先来说一下主要的技术点:
1. 输入起始网址,解析出主机号和路径(处理http协议和 https协议 和 ftp协议)
2. 使用winnet套接字连接服务器,获取网页html代码,然后使用正则表达式解析出图片url和其他的url。
3. 下载图片至创建的文件夹中,同时其他的url push进队列。
4. 为了使爬虫能够连续的工作,这里使用了BFS宽度优先搜索,也就是说一开始输入的网址作为起始网址,
push进队列,然后把能解析出来的网址在不重复的情况下都push进队列,每次取队列的top来执行下载操作,直到队列为空时终止。
可能存在bug 欢迎指正:Dweeqw希望加入组织,共同交流
效果在图片中,一个http的例子,https要改一下正则表达式,在此不再赘述
Help shape the future of @小远zi
接受捐赠 一分也是爱:loveliness:
请不要出现国内首发等敏感词语,已帮你修改下次注意!C++爬虫挺有新意,期待你下次更好的作品! 只抓图片吗?支持了,
如果支持界面操作项的供我们小白使用就好了。 学习了,谢谢楼主分享 用python分分钟搞定呀 厉害了,感谢分享。 学习学习,很好de帖子!!! 感谢楼主分享,c++大法好 谢谢LZ分享。。。。。 谢谢分享 感谢分享