基于Scrapy框架爬虫淘宝列表图片和店铺名

qq58452077 发表于 2018-7-22 11:32

本帖最后由 qq58452077 于 2018-7-22 12:18 编辑

                           爬虫使用教程
一.安装python2运行环境
1.可以去官网下载
a) . https://www.python.org/downloads/

2.文件夹里

二．配置window环境变量
1.

2.网上有详细安装说明
https://jingyan.baidu.com/article/7908e85c78c743af491ad261.html
三.安装python2第三方库
1.使用python自带包管理器pip安装
      pip install Scrapy
      pip install Django==1.8.2
      pip install selenium
      pip install image
2.安装py2win32库
这个是二级制文件

也是可以用pip install pypiwin32 安装
四.修改项目配置



修改settings.py文件

1.修改谷歌浏览器驱动目录
CHROMEDRIVER_PATH= r"D:\Program Files (x86)\Browser\Chrome\chromedriver.exe"
2.修改谷歌浏览器安装运行文件
CHROMEBIN_PATH =r"D:\Program Files (x86)\Browser\Chrome\Chrome.exe"



修改文件图片存放路径IMAGES_STORE ="E:\home"
五．运行项目
进入文件夹

按shift+右键点击在此处打开命令窗口
Pythoncmdline.py




         其他附件下载（python2，pywin32，Chrome（包含selenium驱动））
         链接: https://pan.baidu.com/s/1kzkT3IGQdlC6EuZKmaM1qQ 密码: 8agm


   （楼主还是一方式基于Splash框架爬虫,此方式需要搭建docker虚拟环境来运行）
   以上两个方式大概不会被反爬虫机制所限制

      此爬虫仅供学习和参考（如有api版本方式爬虫望告知楼主）


   新人发帖，坛友们多多支持！！！！！

   望大佬指点指点!!!

zrl201314 发表于 2018-11-17 15:47

大佬你说的基于Splash框架爬虫,此方式需要搭建docker虚拟环境来运行这个方法怎么实现的,求分享套路谢谢

苏紫方璇 发表于 2018-7-22 11:37

楼主的爬虫代码呢

sdlwqzk 发表于 2018-7-22 11:42

很有兴趣关注一下~

qq58452077 发表于 2018-7-22 11:47

苏紫方璇发表于 2018-7-22 11:37
楼主的爬虫代码呢

已经上传了。。:lol

隰则有泮 发表于 2018-7-22 11:49

楼主的id 很危险啊0.0

斩荒发表于 2018-7-22 11:56

过河的靴子 发表于 2018-7-22 18:27

挺详细的教程，很适合小白

qq58452077 发表于 2018-7-22 19:36

过河的靴子发表于 2018-7-22 18:27
挺详细的教程，很适合小白

还好。还好！！！

天台发表于 2018-7-23 14:35

感觉不错先存下来了晚上运行一下试试

水泥工艺学 发表于 2018-8-3 00:16

很有兴趣关注一下~

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

基于Scrapy框架爬虫淘宝列表图片和店铺名