好友
阅读权限10
听众
最后登录1970-1-1
|
本帖最后由 sakura32 于 2024-1-5 21:42 编辑
目前我查重的逻辑是:计算图片的感知、均值、差异哈希>>>循环对比两张图片哈希值的韩明距离>>>韩明距离<10的作为重复图片。
由于没有分组,所以导致计算量很大,n张图片的计算量是n-1的阶加,实际运行下来10000张图片算了20分钟左右(Python)。
所以来求助下如何加快查重速度,是分组还是如何,如果分组以什么规则分?目前的想法是以图片的宽高比分一次,相近宽高比的分为一组。
或者说有没有更好的图片查重方法?
补充一下:不是图片二进制的相同,而是图片视觉上的相似,md5是没办法用的,目前我用的图片哈希比较算法和ssim相似度比较算法。
在补充一下:哈希值已经算好存在数据库了,现在相当于循环对比10000个二进制字符串的汉明距离,计算次数相当于9999的阶加,实际用时大概20分钟,用时太久了,所以想找个能给这些图片按特征分组的方法,分组计算而不是每张图片与其他全部图片对比一遍 |
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|