jack555 发表于 2024-9-11 14:23

数据匹配问题


以上是要处理的数据集合
每次有10000条左右。
想做到的功能是将每一条匹配到所属的间隔中
间隔就是前面的几个字,如220kV盈和甲线
匹配总是不准确(不能简单的通过下划线分类,因为有些是包含下划线的)
###如果还能根据后面的字符匹配出,他的类别例如该列是温度,电流,电压之类什么的就更好了
以前应该是写了一段很复杂的正则表达式,但是匹配结果不尽人意


我写过一个根据下划线匹配间隔和根据后缀来匹配类别的python脚本
但是对数据规整性要求极高,而且效果也不是很好,实际应用时捉襟见肘。
现在在考虑是不是先提取关键词再匹配,或者先通过分词再匹配
奈何本人没有这些自然语言处理的技术路线,实在是无从下手,不知道从哪个方向剥离出一个头


最好是速度快,配合数据库使用,因为最终都是要储存到数据库
因为如果不能匹配间隔和找到他的类别的话,需要人工一个一个点,是个很冗余的工作。
我想请教一下各位大佬,有哪些技术可以用来参考或者借鉴
谢谢各位

jack555 发表于 2024-9-12 12:42

youngnku 发表于 2024-9-11 20:25
建议把表格发个附件,原表是啥样,期望表是啥样,这样大家才好帮忙吧

https://wwnt.lanzout.com/ibk5y29twnfg
密码:i8pv
您好,我的数据上传了。

最好是能自动提取出来这个数据,并且能匹配上提取出来的数据。
就是第三列,最好是可以自动提取出来。
并且在后面可以完美的匹配上第一列中的内容
谢谢您

youngnku 发表于 2024-9-11 20:25

建议把表格发个附件,原表是啥样,期望表是啥样,这样大家才好帮忙吧

一生挚爱不回头 发表于 2024-9-11 20:39

你发一个手动匹配成功的例子看看。怎么匹配的

jack555 发表于 2024-9-12 12:53

一生挚爱不回头 发表于 2024-9-11 20:39
你发一个手动匹配成功的例子看看。怎么匹配的

您好,我已经发了,在置顶,谢谢

一生挚爱不回头 发表于 2024-9-13 09:39

jack555 发表于 2024-9-12 12:53
您好,我已经发了,在置顶,谢谢

你匹配集电电路,跟盈和不就可以全部匹配到了,再把前面的取出来,用excel我不会写这个公式,你可以发悬赏区让人帮忙写下,或者我有空给你写个软件,但是不是excel格式,自己复制一下

jack555 发表于 2024-9-18 10:26

一生挚爱不回头 发表于 2024-9-13 09:39
你匹配集电电路,跟盈和不就可以全部匹配到了,再把前面的取出来,用excel我不会写这个公式,你可以发悬 ...

实际情况远比这个复杂,不是简单的插件或者代码能搞定的。有时候数据及其不规整,难以准确找到关键词,需要联想匹配才能匹配上,这玩意对准确率要求极高,错了一个都要手工修改找半天

一生挚爱不回头 发表于 2024-9-18 13:58

jack555 发表于 2024-9-18 10:26
实际情况远比这个复杂,不是简单的插件或者代码能搞定的。有时候数据及其不规整,难以准确找到关键词,需 ...

那你把复杂的都举个例子就好了啊

一生挚爱不回头 发表于 2024-9-18 13:59

jack555 发表于 2024-9-18 10:26
实际情况远比这个复杂,不是简单的插件或者代码能搞定的。有时候数据及其不规整,难以准确找到关键词,需 ...

看你发出来的匹配这两个就可以了
页: [1]
查看完整版本: 数据匹配问题