HOW2J 发表于 2020-3-3 12:39

Python爬虫笔记---web库的安装

本帖最后由 HOW2J 于 2020-3-3 12:41 编辑

# Web库的安装
* 日常访j问的网站都是Web程序搭建的,python也一样,比如:Flask,Django等可以开发网站和接口等。
在爬虫中,我们需要Web服务程序来搭建一些API接口,给我们的爬虫使用,比如:维护一个代{过}{滤}理池,代{过}{滤}理保存在Redis数据库中,如果要将代{过}{滤}理池作为一个公共的组件使用,就需要Web服务提供一个API接口,这样我们只需要请求接口即可获取新的代{过}{滤}理,这样简单,高效,实用!
我们要用的主要的Web服务程序主要有Flask和Tornado。

## 1. Flask的安装
  Flask是一个轻量级的Web服务程序,它简单,易用,灵活。爬虫中主要做一些API服务。

* 链接
GitHub: https://github.com/pallets/flask
文档: http://flask.pocoo.org
中文文档: http://docs.jinkan.org/docs/flask   

* pip安装
命令:pip3 install flask
运行完毕后,就安装完成。

* 安装验证
安装成功后,运行下列代码:
```python
from flask import Flask
app = Flask(__name__)
@app.route("/")
def hello():
    return "Hello world"
if __name__=="__main__":
    app.run()
```
这样系统就在5000端口开启了Web服务,控制台输出如下:
```
* Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)
```
直接访问http://127.0.0.1:5000/,可以看到网页呈现了Hello world,这样一个简单的Flask程序就运行成功了。

* 可以利用Flask+Redis维护动态代{过}{滤}理池和Cookies池

## 2. Tornado的安装
* Tornado是一个支持异步的web框架,通过使用非阻塞I/O流,它可以支持成千上万的开放连接,效率非常高。

* 链接
GitHub: https://github.com/tornadoweb/tornado
官方文档: http://ww.tornadoweb.org

* pip安装
命令: pip3 install tornado
执行完毕,即可完成安装。

* 安装验证
Hello world程序代码测试:
```python
import tornado.ioloop
import tornado.Web
class MainHandler(tornado.web.RequestHandler):
      def get(self):
          self.write("Hello world")
def make_app():
    return tornado.web.Application([
      (r"/", MainHandler),
    ])
if __name__=="__main__":
    app = make_app()
    app.listen(8888)
    tornado.io
```
系统已经在8888端口运行了Web服务,控制台没有输出内容,访问http://127.0.0.1:8888/,网页呈现Hello world,则Tornado安装成功了。

* 可以利用Tornado+Redis来搭建一个ADSL拨号代{过}{滤}理池。

## 文章大部分内容取自《《Python 3网络爬虫开发实战》》

HOW2J 发表于 2020-3-3 13:09

欢迎大家交流评论{:1_893:}{:1_893:}{:1_893:}

葫芦炒鸡蛋 发表于 2020-3-3 13:45

。。。这几个都是web框架,和爬虫关系不大吧

金手指教育 发表于 2020-3-3 13:01

大佬威武~~~

ma4907758 发表于 2020-3-7 19:35

感谢分享,学习了
页: [1]
查看完整版本: Python爬虫笔记---web库的安装