好友
阅读权限10
听众
最后登录1970-1-1
|
本帖最后由 super谦 于 2020-12-14 10:18 编辑
星期六还要上半天班很不爽,于是利用摸了3个小时的鱼弄出了个淘宝爬虫的软件,目前只能爬取图片链接、商品名、销量、店铺名、地点
软件是用python写的,用到的是seleuim,所以需要谷歌浏览器,目前最新版的谷歌浏览器是适用的。因为淘宝的防爬机制,所以在使用爬虫软件时,需要输入账号和密码登录账号,而且爬虫的速度相对比较慢,因为我设置了很多等待时间。
其实我之前是有发过这个软件的python源代码的,在我的帖子里能看到,但是很少人看,我发现分享软件的热度就很高,于是我就把这个做成软件,方便大家使用。
软件我放在了百度云,不大,30m左右
链接: https://pan.baidu.com/s/1x8Xt4pxJ36WW4RXCg7pzgg 提取码: ezbx
下面我讲一下使用该软件的注意事项!!!!!
1、一天内不要使用爬太多次,否则可能会被淘宝检测到,会被防爬,虽然过几天就会被解除。
2、你要登录的淘宝账号必须在谷歌浏览器的网页版淘宝成功登录过,否则会出现一系列的验证问题,软件无法成功登录账号,就不能搜索关键词,爬取数据。虽然有的人是可以不登录账号就能够进行搜索关键词,但是爬取多了,ip会被淘宝检测到,以后搜索的时候会提醒你登录账号才可以搜索,所以我就提前写了要登录账号的需求。
3、目前我不知道什么版本间的谷歌浏览器是可以用的,但是最新版的肯定可以用,因为我是用最新版的,所以需要更新
另外,目前爬取的图片是链接的形式保存,后续我会写个软件,批量把链接转成图片的形式保存到文件夹,所以大家可以留意一下更新,估计下星期一就会更新,因为我没带工作的电脑回家,所以写不了。
如果有什么内容不合适的,版主可以自行删帖
如果大家觉得有用的,希望能给个免费的评分,十分感谢!!!
2020年12月14日更新:
1、新添加把图片链接保存到本地文件夹的功能
2、爬虫保存的excel文件名进行修改:(原)爬虫信息.xlsx (现)pachong.xlsx
软件说明:
1、taobao_exe 为爬虫软件,数据爬取完毕后,会提醒是否将图片链接转为jpg图片格式保存,若保存会自动生成img文件夹,所有图片保存在img文件夹中
2、pic 为图片链接转为jpg图片格式的软件,方便在爬虫完毕后,未选择保存为图片格式,后续想要保存为图片的情况(注意:这里需要当前文件夹中有pachong.xlsx文件,且该excel文件中有img列,img列为图片链接)
链接: https://pan.baidu.com/s/1x8Xt4pxJ36WW4RXCg7pzgg 提取码: ezbx
|
-
1607911890.png
(35.22 KB, 下载次数: 3)
-
1607912197(1).png
(41.45 KB, 下载次数: 4)
-
0f8118d3e2957e9b0f554cfd2100b59.png
(175.9 KB, 下载次数: 3)
2020年12月14日更新
-
adbc488b73ed6b00bfedcb6afa6d385.png
(718.97 KB, 下载次数: 4)
第一次登陆网页版淘宝的注意事项
-
f07c8757e7ccdf7d34ac883ae5798c4.png
(25.55 KB, 下载次数: 5)
文件存放执行
-
51f5e22f18b25715768204cadf41398.png
(33.49 KB, 下载次数: 2)
-
8e56e8c535e230036b19b8d09d82bed.png
(66.4 KB, 下载次数: 0)
-
49c9b53c9a6f6c74139ee2d477f1d62.png
(66.01 KB, 下载次数: 1)
-
1607766799(1).png
(70.84 KB, 下载次数: 0)
-
68e96a062d8926445fb606890932361.png
(184.42 KB, 下载次数: 3)
免费评分
-
查看全部评分
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|