吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2607|回复: 15
收起左侧

[Python 转载] python爬虫笔记——框架的安装

  [复制链接]
HOW2J 发表于 2020-2-24 20:07

爬虫框架的安装

  直接用requests、Selenium等库写爬虫,当爬取量不是太大,速度要求不高,是完全可以满足要求的。但是写多了会发现内部许多代码和组件是可以复用的,如果我们把这些组件抽离出来,将各个功能模块化,就慢慢会形成一个框架雏形,然后爬虫框架就形成了。

  利用框架,我们可以不用再去关心莫些共能得具体实现,只需要关心爬取逻辑即可。有了塔门,可以大大简化代码量,而且框架也会变得清晰,爬取效率也会高许多。所以,如果有一定得基础,上手框架是一种好的选择。  

  爬虫框架有pyspider和Scrapy。下面是pyspider、Scrapy及其扩展库的安装方式。  

1. pyspider的安装

  pyspider是国人binux编写的强大的网络爬虫框架,它带有强大的WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器,同时支持多种数据库后端、多种消息列队,另外还支持Javascript渲染页面的爬取,使用起来非常方便。  

解决方法:  

2. Scrapy

  Scrapy是一个十分强大的爬虫框架,依赖的库比较多,至少需要依赖的库有Twisted 14.0、lxml 3.4和pyOpenSSL 0.14。在不同的平台环境下,她所依赖的库也各不同,所以在安装之前,最好确保把一些基本库安装好。  

3. Scrapy-Splash的安装

  • Scrapy-Splash是一个Scrapy中支持Javascript渲染的工具,
    Scrapy-Splash的安装分为两部分。一个是Splash服务的安装,具体是通过Docker,安装之后,会启动一个Splash服务,我们通过它的接口来实现Javascript页面的加载,另一个是Scrapy-Splash的python库的安装,安装之后即可在Scrapy中使用Splash服务。  

  • 链接
    GitHub:https://github.com/scrapy-plugins/scrapy-splash
    使用说明:https://github.com/scrapy-plugins/scrapy-splash#configuration
    Splash官方文档:http://splash.redthedocs.io  

  • 安装Splash
    Scrapy-Splash会使用Splash的HTTP API进行页面渲染,所以需要安装Splash来提供渲染服务。我们需要Docker安装。
    安装命令:
    docker run -p 8050:8050 scrapinghub/splash
    Splash已经在8050端口运行了,打开http://localhost:8050, 可以看到Splash的主页。
      Splash也可以安装在远程服务器上,在服务器上要以守护态运行Splash即可,命令:
    docker run -d -p 8050:8050 scrapinghub/splash  

-d参数代表将Docker容器以守护态运行,中断远程服务器连接后,不会终止Splash服务的运行   

docker安装https://www.runoob.com/docker/windows-docker-install.html

  • Scrapy-Splash的安装
    安装python库:
    pip3 install scrapy-splash
    命令运行完毕后,即安装成功。  

4. Scrapy-Redis的安装

Scrapy-Redis是Scrapy的分布式扩展模块,我们就可以方便地实现Scrapy分布式爬虫的搭建。  

大部分内容参照《《Python 3网络爬虫开发实战》》

免费评分

参与人数 3吾爱币 +2 热心值 +2 收起 理由
在线小学生 + 1 + 1 谢谢@Thanks!
Truama + 1 用心讨论,共获提升!
孤乐町艳士 + 1 热心回复!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| HOW2J 发表于 2020-2-24 20:09
,欢迎评论交流
CharlesGoGoGo 发表于 2020-2-24 20:19
不够秀 发表于 2020-2-24 20:25
yjn866y 发表于 2020-2-24 20:35
不错不错,努力学习中
Jack-lee 发表于 2020-2-24 20:39
支持一下
头像被屏蔽
zaijiankelu 发表于 2020-2-24 20:56
提示: 作者被禁止或删除 内容自动屏蔽
alex3ander 发表于 2020-2-24 20:59
谢谢大佬的无私分享
在线小学生 发表于 2020-2-24 23:51
支持支持,学习进步
zxqatwa 发表于 2020-2-25 08:02
学习中,研究一下
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-16 23:43

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表