李白日做梦 发表于 2020-12-3 09:29

求助采集存储思路,软件关闭后在打开如何继续采集

现在要采集一个资源站50万个URL(需要挂机采集一周以上),爬URL的时候比较简单,存储的时候遇到了问题。比如从forum-1.html这个页面开始采集,一直采集到forum-10000.html,然后每个页面中有30个帖子URL。现在遇到2个问题。2.可能我从forum-1.html,采集到forum-400.html的时候需要停止软件,或者因故意外关闭。这时候我不能从1开始重新采集,要从400开始采集。(其实400开始也有问题)。
2.资源站是动态更新的,采集完了后,可能每天或者每周要采集更新的URL,我只能继续从forum-1.html开始采集,但是不知道采集到哪里停止,如果一直采集,可能采集到forum-XXX.html就全是重复的了。
求大神给思路给方案。

枫子树 发表于 2020-12-3 14:08

李白日做梦 发表于 2020-12-3 14:16

枫子树 发表于 2020-12-3 14:08
增量爬取你去百度一下就知道解决方案

大神,一语中的,就是这个!
页: [1]
查看完整版本: 求助采集存储思路,软件关闭后在打开如何继续采集