python celery异步队列爬虫的实现!!

oskfh · 发表于 2019-3-18 15:41

本帖最后由 oskfh 于 2019-3-18 17:11 编辑

python celery爬虫简介

注意

启动worker的时候如果需要使用celerybeat的定时功能，需要加上-B的参数
- 启动一个 download_queue,-A app的位置,-Q 指定启动的队列,worker 消费者,-c 4个并发,-B 启动该队列的celerybeaet，-n 节点名字为downloader，-l log等级为info celery -A tasks.workers -Q download_queue worker -B -l info -c 4 -n downloader
在app.conf.update('CELERYBEAT_SCHEDULE')中能够实现celerybeat的定时任务功能，如果是定时执行，比如某天的某小时，可以使用crontab的方式来完成
log中使用dictConfig的方式添加日志，格式比较清晰，后续可以使用该方式来设置日志
实例化celery的app的时候，使，能够让celery自动的从celery_app.tasks中寻找tasks，方便用include的方式
在tasks中传递了resposne对象，不能使用json的序列化方式，选择pickle的方式
在task中，都是用app.send_task("**task", args=(response,),queue="parse_page_list",routing_key="for_page_list") 来把结果交给一个task去完成，同时使用queue和routing_key的方式来，能够把当前任务队列中的内容传递到另一个任务队列，celery能够自动的寻找queue和routing_key匹配的队列去接收任务

本代码可以加强的地方

使用体会

使用celery能够轻松的帮助我们完成一个大型的分布式爬虫，但是如果和scrapy或者是scrapy_redis相比的话，整个程序会变得很凌乱
后续的框架，可以使用celery来完成一些细节功能的异步调用，但是目前感觉不能纯粹的依靠celery来完成一个分布式的爬虫, 而是要把celery用在他正确的用途上, 例如注册后发送验证邮件.等等

下面是项目图片:

调用种子url的方法