hack78 发表于 2024-5-27 08:55

Python能否实现,excel数据查重

如下表格中的数据,“交办问题基本情况”这列数据,能不能实现相同问题的查重。

Loker 发表于 2024-5-27 08:55

提供个非AI的python处理思路:
可以根据地点进行第一次数据归类;也可以根据一些关键字分类,如:扰民、尾气、废水、废气、臭
分类关键字提取越多越细,剩余不能有效分类的就越少。
最后慢慢处理分类后的数据可能会简单一些

海是倒过来的天 发表于 2024-5-27 09:01

可以是可以,问题是你要明确怎么样才是叫重复。比如多了一个空格是不是重复,全角半角是否重复,。还是内容字数大于多少重复就算重复,明确下来用python就容易实现。


中环督这么多信访件,销案做到头晕哦

楼主你好萌 发表于 2024-5-27 09:04

这玩意都涉及到AI的问题,python应该是解决的不了的

放羊的狼 发表于 2024-5-27 09:07

查重简单,可看你的意思并不是单纯意义的查重啊

wcch123 发表于 2024-5-27 09:07

想到一个方法,可以试一下本地部署AI,然后对数据进行初步整理,然后再进行匹配

hack78 发表于 2024-5-27 09:08

wcch123 发表于 2024-5-27 09:07
想到一个方法,可以试一下本地部署AI,然后对数据进行初步整理,然后再进行匹配

看来只能本地训练AI 进行智能化分析,这已经不是个简单查重任务了:'(weeqw

huliuwa 发表于 2024-5-27 09:09

是否是对“交办问题基本情况”这列数据,中的所有的1. 2. 3. 4. 5. 这些数据进行查重?(可否理解为文本完全相同)

hack78 发表于 2024-5-27 09:10

huliuwa 发表于 2024-5-27 09:09
是否是对“交办问题基本情况”这列数据,中的所有的1. 2. 3. 4. 5. 这些数据进行查重?(可否理解为文本完 ...

这个只能说大概意思相同,完全相同,那可能就是一个人反应的多次问题。

15126819695 发表于 2024-5-27 09:12

你说的这个属于论文查重,可以使用知网查重或者oj查重哈
页: [1] 2 3 4
查看完整版本: Python能否实现,excel数据查重