关于python语音识别转文字,如何训练模型,提高精准度?
关于python语音识别转文字,如何训练模型,提高精准度?如题。最近在学习语音识别方面的知识。在语音识别方面,有很多api接口,
但是由于很多需要联网或者有使用次数限制等,只有sphinx这个支持离线,
但是使用他的库,测试语音转文本,尤其是汉语recognize_sphinx(audio, language='zh-cn')的时候,
那转化结果根本,不能看。
网上有用cmu sphinx训练的,看不是太明白,不知道论坛有没有大佬,给指导指导,谢谢!
百度的PaddlePaddle中有很多库,可以自己训练,也可以用自带的预训练模型。我在用PaddleOCR和PaddleSpeech。 建议先学习数学。就是线性代数,离散数学。还有微积分。先看特斯拉之夫在YouTube怎么教入门入门机器学习的。代码是python.然后数学是线性代数,微积分,没了,人工智能离不开数学的,数学学的不行,训练出来的模型就会很差, 努力学加油加油 同楼上,飞浆语音识别还不错,你要是打算从0开始训练的话,需要先找一个合适的神经引擎算法(不知道是不是这么叫),然后自己写训练集,再洗数据,再拿一组去验证,大概是这样吗
非人工智能专业,但是最近也在准备炼丹 谢谢楼上,我找找相关的资料,再测试下。 萌新与小白 发表于 2022-12-26 00:35
百度的PaddlePaddle中有很多库,可以自己训练,也可以用自带的预训练模型。我在用PaddleOCR和PaddleSpeech ...
百度的库是免费的还是收费的? linswin 发表于 2022-12-26 10:22
百度的库是免费的还是收费的?
我发这个开源免费,它也有收费的。 机器学习,神经网络的基础知识得学牢,sklearn和pytorch等平台也得理解透彻,才能很好的理解透语音识别模型 本帖最后由 lengkeyu 于 2022-12-27 15:40 编辑
最近看了cmu sphinx的相关内容cmusphinx-zh-cn-5.2.tar,他识别英文的准确率还可以;但是识别中文的发音,这个基本不能用。
字典应该是个关键,但是看他的中文字典,里面实际上也有8-9万的字或词、短语,那么问题不是在数量上,大概是这样的:
C:\Users\PICC\Desktop\1672124068646.png
不太清楚他的规则。
按照道理说,现在计算机识别汉字发音,这个都很成熟了,应该是根据汉语字典发音来的吧;
为什么语音识别转文字,就不能按照字典发音来识别?而是建立了很复杂的逻辑或模型?
页:
[1]