zhzhx 发表于 2023-2-9 14:44

Python实现提取文本中的金额及货币

一、工具安装:
pip install jionlp

二、使用:
>>> import jionlp as jio
>>> text = '张三赔偿李四人民币车费601,293.11元,工厂费一万二千三百四十五元,利息9佰日元,打印费十块钱。'
>>> moneys = jio.extract_money(text)
>>> standard_moneys =

#moneys: ['601,293.11元', '一万二千三百四十五元', '9佰日元', '十块钱']
#standard_moneys: ['601293.11元', '12345.00元', '900.00日元', '10.00元']

三、说明:

[*]支持标准数字格式,如:1,034,192.07元
[*]支持纯数字格式,如:987273.3美元
[*]支持大写中文金额,如:柒仟六佰零弎萬肆仟叁佰贰拾壹元伍分
[*]支持混合格式,如:1.26万港元
[*]支持口语化中文格式,如:三十五块三毛;但对于“三十五块八”这样的字符串,在文本中存在歧义,如“三十五块八颗糖”等,因此,extract_money 对于此字符串不予抽取,但money_standardization可以将“三十五块八”看作完整的口语化金额,标准化为“35.80元”
[*]支持多种常见货币类型:人民币,港元,澳门元,美元,日元,澳元,韩元,卢布,英镑,马克,法郎,欧元,加元等。

yjn866y 发表于 2023-2-9 15:41

这个轮子不错

52soft 发表于 2023-2-9 16:27

Traceback (most recent call last):
File "<pyshell#3>", line 1, in <module>
    standard_moneys =
File "<pyshell#3>", line 1, in <listcomp>
    standard_moneys =
AttributeError: module 'jionlp' has no attribute 'money_standardization'

提示以上错误,是什么原因?

shengforever 发表于 2023-2-9 18:11

厉害了 收藏了

alongzhenggang 发表于 2023-2-9 18:23

kanlekan geweishu de cunkuanmomo cde zoukai

dujiu3611 发表于 2023-2-9 19:25

收藏,小本本又多了一页,感谢分享

wanderrr 发表于 2023-2-9 19:26

这个在忘记正则时确实好用,方便

dx163 发表于 2023-2-9 19:31

因为不懂这个语言,所以没有用

jffwoo 发表于 2023-2-9 20:31

AttributeError: partially initialized module 'random' has no attribute 'choice' (most likely due to a circular import)
请问这个报错什么原因

jffwoo 发表于 2023-2-9 20:49

52soft 发表于 2023-2-9 16:27
Traceback (most recent call last):
File "", line 1, in
    standard_moneys =

AttributeError: module 'jionlp' has no attribute 'money_standardization'
我也有这个报错
页: [1] 2
查看完整版本: Python实现提取文本中的金额及货币