吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 844|回复: 2
收起左侧

[求助] 求助采集存储思路,软件关闭后在打开如何继续采集

[复制链接]
李白日做梦 发表于 2020-12-3 09:29
现在要采集一个资源站50万个URL(需要挂机采集一周以上),爬URL的时候比较简单,存储的时候遇到了问题。比如从forum-1.html这个页面开始采集,一直采集到forum-10000.html,然后每个页面中有30个帖子URL。现在遇到2个问题。2.可能我从forum-1.html,采集到forum-400.html的时候需要停止软件,或者因故意外关闭。这时候我不能从1开始重新采集,要从400开始采集。(其实400开始也有问题)。
2.资源站是动态更新的,采集完了后,可能每天或者每周要采集更新的URL,我只能继续从forum-1.html开始采集,但是不知道采集到哪里停止,如果一直采集,可能采集到forum-XXX.html就全是重复的了。
求大神给思路给方案。

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

头像被屏蔽
枫子树 发表于 2020-12-3 14:08
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 李白日做梦 发表于 2020-12-3 14:16
枫子树 发表于 2020-12-3 14:08
增量爬取  你去百度一下就知道解决方案

大神,一语中的,就是这个!
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 09:50

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表