数据匹配问题
以上是要处理的数据集合
每次有10000条左右。
想做到的功能是将每一条匹配到所属的间隔中
间隔就是前面的几个字,如220kV盈和甲线
匹配总是不准确(不能简单的通过下划线分类,因为有些是包含下划线的)
###如果还能根据后面的字符匹配出,他的类别例如该列是温度,电流,电压之类什么的就更好了
以前应该是写了一段很复杂的正则表达式,但是匹配结果不尽人意
我写过一个根据下划线匹配间隔和根据后缀来匹配类别的python脚本
但是对数据规整性要求极高,而且效果也不是很好,实际应用时捉襟见肘。
现在在考虑是不是先提取关键词再匹配,或者先通过分词再匹配
奈何本人没有这些自然语言处理的技术路线,实在是无从下手,不知道从哪个方向剥离出一个头
最好是速度快,配合数据库使用,因为最终都是要储存到数据库
因为如果不能匹配间隔和找到他的类别的话,需要人工一个一个点,是个很冗余的工作。
我想请教一下各位大佬,有哪些技术可以用来参考或者借鉴
谢谢各位 youngnku 发表于 2024-9-11 20:25
建议把表格发个附件,原表是啥样,期望表是啥样,这样大家才好帮忙吧
https://wwnt.lanzout.com/ibk5y29twnfg
密码:i8pv
您好,我的数据上传了。
最好是能自动提取出来这个数据,并且能匹配上提取出来的数据。
就是第三列,最好是可以自动提取出来。
并且在后面可以完美的匹配上第一列中的内容
谢谢您 建议把表格发个附件,原表是啥样,期望表是啥样,这样大家才好帮忙吧 你发一个手动匹配成功的例子看看。怎么匹配的 一生挚爱不回头 发表于 2024-9-11 20:39
你发一个手动匹配成功的例子看看。怎么匹配的
您好,我已经发了,在置顶,谢谢 jack555 发表于 2024-9-12 12:53
您好,我已经发了,在置顶,谢谢
你匹配集电电路,跟盈和不就可以全部匹配到了,再把前面的取出来,用excel我不会写这个公式,你可以发悬赏区让人帮忙写下,或者我有空给你写个软件,但是不是excel格式,自己复制一下 一生挚爱不回头 发表于 2024-9-13 09:39
你匹配集电电路,跟盈和不就可以全部匹配到了,再把前面的取出来,用excel我不会写这个公式,你可以发悬 ...
实际情况远比这个复杂,不是简单的插件或者代码能搞定的。有时候数据及其不规整,难以准确找到关键词,需要联想匹配才能匹配上,这玩意对准确率要求极高,错了一个都要手工修改找半天 jack555 发表于 2024-9-18 10:26
实际情况远比这个复杂,不是简单的插件或者代码能搞定的。有时候数据及其不规整,难以准确找到关键词,需 ...
那你把复杂的都举个例子就好了啊 jack555 发表于 2024-9-18 10:26
实际情况远比这个复杂,不是简单的插件或者代码能搞定的。有时候数据及其不规整,难以准确找到关键词,需 ...
看你发出来的匹配这两个就可以了
页:
[1]