吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 4025|回复: 11
收起左侧

[Python 转载] Scrapy爬取猫眼流浪地球影评1----- 安装配置Scrapy

  [复制链接]
py看考场 发表于 2019-3-16 00:03
本帖最后由 py看考场 于 2019-3-24 18:30 编辑

心血来潮,想发一个关于python爬虫的文章,因为之前刚好爬过流浪地球影评,而且猫眼一般情况下不会有反爬措施,所以爬起来比较顺手。爬取工具就用Scrapy吧,因为其自带加速buff。

首先安装和配置一下scrapy,大佬可以绕过,看看下两个帖子。

传输门   scrapy爬取数据   数据可视化

.安装scrapy模块
以下是在windows中的安装过程,scrapy依赖的库比较多,如lxml、pyOpenSSL、Twisted
1.首先,升级pip : python -m pip install --upgrade pip(进入cmd命令行界面)
1.png

2.安装wheel : pip install wheel
2.png

3.下载安装lxml 下载地址: https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
注:下载对应python版本和位数的.whl文件
首先cmd模式下输入python,查看相关信息
3.png
下载与信息相匹配的文件
4.png
安装lxml文件
pip install lxml-xxx.whllxml-xxx.whl指的是你下载的lxml安装文件名字


4.下载安装Twisted 下载地址: http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
注:下载对应python版本和位数的.whl文件
和第三步一样
5.png
安装twisted文件
pip install twisted-xxx.whl, twisted-xxx.whl指的是你下载的twisted安装文件名字

5.安装pyOpenSSL : pip install pyOpenSSL
6.png

6.最后安装scrapy:  pip install  scrapy
7.png

安装大功告成!


.配置scrapy
1.win+R输入cmd进入命令行界面,输入e: 回车切换至E盘。输入scrapy -h查看scrapy的相关命令
8.png

2.用startproject命令创建一个新的项目名字为maoyan
11.png
此时在E盘中创建了名为maoyan的文件夹
13.png

3进入maoyan文件夹,用genspider命令创建一个爬虫文件comment.py
16.png
此时在spiders文件夹中会出现comment.py文件
21.png

4.用pycharm打开maoyan文件夹,进入主目录
31.png

5.打开settings.py文件,修改robots.txt并把67-69之间的代码取消注释,保存
41.png

42.png

至此,scrapy配置成功!


写作不易,希望大家给个热心吧,多谢啦
明天再介绍猫眼电影影评的爬取,晚安~~~



免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
gpzq520 + 1 + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

gety 发表于 2019-3-17 15:20
好评!加油!
 楼主| py看考场 发表于 2019-3-18 21:05
pbcleo 发表于 2019-3-19 06:22 来自手机
 楼主| py看考场 发表于 2019-3-19 09:59 来自手机
pbcleo 发表于 2019-3-19 06:22
期待你继续下去。

感谢支持
kabin 发表于 2019-7-21 15:15
anaconda里安装lxml报错,下面的操作无法进行,不知道哪里错了
kabin 发表于 2019-7-21 22:31
稀里糊涂的又都安装成功,下午报错 的问题,没再出现
wnofxw 发表于 2019-7-21 22:42
学习了,非常好的爬虫
zhuwaihui 发表于 2019-7-23 12:51
学习了 学习了最近就在学习scrapy
mhf0226 发表于 2019-7-24 21:49
学习学习!多谢楼主分享!
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-16 12:07

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表