暮而归 发表于 2019-8-5 23:52

想请教一个关于爬虫的问题

求助,我需要爬取一个网站,百万级的数据量,但是其中有很多重复的图片,这大大影响了爬取的速度,想请教下各位大佬有没有办法解决重复爬取相同图片的办法,图片都是先下载再把url存入数据库的。
我之前是考虑先把图片的url爬下来,后期再统一进行下载,但是这样的话检索数据库又需要大量的时间,想问问有没有大佬能帮忙解决一下的。
页: [1]
查看完整版本: 想请教一个关于爬虫的问题