好友
阅读权限10
听众
最后登录1970-1-1
|
本帖最后由 HOW2J 于 2020-3-3 12:41 编辑
Web库的安装
- 日常访j问的网站都是Web程序搭建的,python也一样,比如:Flask,Django等可以开发网站和接口等。
在爬虫中,我们需要Web服务程序来搭建一些API接口,给我们的爬虫使用,比如:维护一个代{过}{滤}理池,代{过}{滤}理保存在Redis数据库中,如果要将代{过}{滤}理池作为一个公共的组件使用,就需要Web服务提供一个API接口,这样我们只需要请求接口即可获取新的代{过}{滤}理,这样简单,高效,实用!
我们要用的主要的Web服务程序主要有Flask和Tornado。
1. Flask的安装
Flask是一个轻量级的Web服务程序,它简单,易用,灵活。爬虫中主要做一些API服务。
-
链接
GitHub: https://github.com/pallets/flask
文档: http://flask.pocoo.org
中文文档: http://docs.jinkan.org/docs/flask
-
pip安装
命令:pip3 install flask
运行完毕后,就安装完成。
-
安装验证
安装成功后,运行下列代码:
from flask import Flask
app = Flask(__name__)
@app.route("/")
def hello():
return "Hello world"
if __name__=="__main__":
app.run()
这样系统就在5000端口开启了Web服务,控制台输出如下:
* Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)
直接访问http://127.0.0.1:5000/,可以看到网页呈现了Hello world,这样一个简单的Flask程序就运行成功了。
-
可以利用Flask+Redis维护动态代{过}{滤}理池和Cookies池
2. Tornado的安装
-
Tornado是一个支持异步的web框架,通过使用非阻塞I/O流,它可以支持成千上万的开放连接,效率非常高。
-
链接
GitHub: https://github.com/tornadoweb/tornado
官方文档: http://ww.tornadoweb.org
-
pip安装
命令: pip3 install tornado
执行完毕,即可完成安装。
-
安装验证
Hello world程序代码测试:
import tornado.ioloop
import tornado.Web
class MainHandler(tornado.web.RequestHandler):
def get(self):
self.write("Hello world")
def make_app():
return tornado.web.Application([
(r"/", MainHandler),
])
if __name__=="__main__":
app = make_app()
app.listen(8888)
tornado.io
系统已经在8888端口运行了Web服务,控制台没有输出内容,访问http://127.0.0.1:8888/,网页呈现Hello world,则Tornado安装成功了。
-
可以利用Tornado+Redis来搭建一个ADSL拨号代{过}{滤}理池。
文章大部分内容取自《《Python 3网络爬虫开发实战》》
|
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|