吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 367|回复: 8
收起左侧

[求助] 数据匹配问题

[复制链接]
jack555 发表于 2024-9-11 14:23

点表数据

点表数据

以上是要处理的数据集合
每次有10000条左右。
想做到的功能是将每一条匹配到所属的间隔中
间隔就是前面的几个字,如220kV盈和甲线
匹配总是不准确(不能简单的通过下划线分类,因为有些是包含下划线的)
###如果还能根据后面的字符匹配出,他的类别例如该列是温度,电流,电压之类什么的就更好了
以前应该是写了一段很复杂的正则表达式,但是匹配结果不尽人意


我写过一个根据下划线匹配间隔和根据后缀来匹配类别的python脚本
但是对数据规整性要求极高,而且效果也不是很好,实际应用时捉襟见肘。
现在在考虑是不是先提取关键词再匹配,或者先通过分词再匹配
奈何本人没有这些自然语言处理的技术路线,实在是无从下手,不知道从哪个方向剥离出一个头


最好是速度快,配合数据库使用,因为最终都是要储存到数据库
因为如果不能匹配间隔和找到他的类别的话,需要人工一个一个点,是个很冗余的工作。
我想请教一下各位大佬,有哪些技术可以用来参考或者借鉴
谢谢各位

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| jack555 发表于 2024-9-12 12:42
youngnku 发表于 2024-9-11 20:25
建议把表格发个附件,原表是啥样,期望表是啥样,这样大家才好帮忙吧

https://wwnt.lanzout.com/ibk5y29twnfg
密码:i8pv
您好,我的数据上传了。

数据

数据

最好是能自动提取出来这个数据,并且能匹配上提取出来的数据。
就是第三列,最好是可以自动提取出来。
并且在后面可以完美的匹配上第一列中的内容
谢谢您
youngnku 发表于 2024-9-11 20:25
建议把表格发个附件,原表是啥样,期望表是啥样,这样大家才好帮忙吧
一生挚爱不回头 发表于 2024-9-11 20:39
你发一个手动匹配成功的例子看看。怎么匹配的
 楼主| jack555 发表于 2024-9-12 12:53
一生挚爱不回头 发表于 2024-9-11 20:39
你发一个手动匹配成功的例子看看。怎么匹配的

您好,我已经发了,在置顶,谢谢
一生挚爱不回头 发表于 2024-9-13 09:39
jack555 发表于 2024-9-12 12:53
您好,我已经发了,在置顶,谢谢

你匹配集电电路,跟盈和不就可以全部匹配到了,再把前面的取出来,用excel我不会写这个公式,你可以发悬赏区让人帮忙写下,或者我有空给你写个软件,但是不是excel格式,自己复制一下
 楼主| jack555 发表于 2024-9-18 10:26
一生挚爱不回头 发表于 2024-9-13 09:39
你匹配集电电路,跟盈和不就可以全部匹配到了,再把前面的取出来,用excel我不会写这个公式,你可以发悬 ...

实际情况远比这个复杂,不是简单的插件或者代码能搞定的。有时候数据及其不规整,难以准确找到关键词,需要联想匹配才能匹配上,这玩意对准确率要求极高,错了一个都要手工修改找半天
一生挚爱不回头 发表于 2024-9-18 13:58
jack555 发表于 2024-9-18 10:26
实际情况远比这个复杂,不是简单的插件或者代码能搞定的。有时候数据及其不规整,难以准确找到关键词,需 ...

那你把复杂的都举个例子就好了啊
一生挚爱不回头 发表于 2024-9-18 13:59
jack555 发表于 2024-9-18 10:26
实际情况远比这个复杂,不是简单的插件或者代码能搞定的。有时候数据及其不规整,难以准确找到关键词,需 ...

看你发出来的匹配这两个就可以了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-24 11:23

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表