吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2808|回复: 20
收起左侧

[已解决] python爬虫多线程问题,数据不全

[复制链接]
lgsp_Jim 发表于 2021-6-4 23:07
本帖最后由 lgsp_Jim 于 2021-6-6 12:06 编辑

QQ截图20210604225814.png

大神帮看下,我设置多线程爬取数据入库,每次插入数据量都是不全,而且时多时少,控制台没任何报错我觉得是多线程处理数据的那部分代码有问题但是不知道具体是哪,怎么解决。



不使用多线程爬取数据的时候,爬取的数据数量是正常的。

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

qianshang666 发表于 2021-6-5 00:19
因为GIL锁的问题,最好的解决办法就是使用多进程
zhorses 发表于 2021-6-5 00:34
可以加入线程等待 ,就是 等全部线程运行完毕 再开始运行最后一步的 写入数据库,具体你可以百度下,也可以看下这篇https://blog.csdn.net/qq_35083213/article/details/111826843
nanaqilin 发表于 2021-6-5 07:40
迈克老狼 发表于 2021-6-5 07:58
网站有反爬机制 所以ip访问时间有限制所以数据不全,火车头也是这种情况。要么用官方ip软件,要么手动暂停更换ip来达到数据完整。
Cool_Breeze 发表于 2021-6-5 08:26
本帖最后由 Cool_Breeze 于 2021-6-5 08:28 编辑

异常处理不要直接pass 把报错信息打印出来!
在插入数据库之前打印一下数据,看看是否正常!
关闭数据库之前有没有提交保存更改(比如sqlite 的 commit命令)!
Cool_Breeze 发表于 2021-6-5 09:57
本帖最后由 Cool_Breeze 于 2021-6-5 09:59 编辑

还是检查一下数据库操作有没有问题吧!
 楼主| lgsp_Jim 发表于 2021-6-5 13:10
迈克老狼 发表于 2021-6-5 07:58
网站有反爬机制 所以ip访问时间有限制所以数据不全,火车头也是这种情况。要么用官方ip软件,要么手动暂停 ...

我爬的是自己的数据,就静态页面而已,没有反爬机制
 楼主| lgsp_Jim 发表于 2021-6-5 13:21
nanaqilin 发表于 2021-6-5 07:40
可以加线程锁试试

入库前加有线程锁了
 楼主| lgsp_Jim 发表于 2021-6-5 13:31
Cool_Breeze 发表于 2021-6-5 08:26
异常处理不要直接pass 把报错信息打印出来!
在插入数据库之前打印一下数据,看看是否正常!
关闭数据库 ...

这里只会在队列为空后报个空异常,不需要处理和打印错误,直接跳过然后执行后面的操作;就算打印,也只是打印空行而已,没有错误。

入库前打印的数据,粗略算一下,基本是正常的。

mongodb这个直接就插入了,应该不是commit事务这个问题,我单线程也是这么插入的,单线程下数据插入是正确的。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 02:49

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表