本帖最后由 bob666zxj 于 2024-8-1 14:43 编辑
推荐一个python离线语音识别库whisper
这是由openai发布的离线语音识别库,在github上有超过 65K 的Star
github:https://github.com/openai/whisper
下面是模型列表:
尺寸 |
参数数量 |
纯英语模式 |
多语言模型 |
所需 VRAM |
相对速度 |
tiny |
39 M |
tiny.en |
tiny |
~1 GB |
~32x |
base |
74 M |
base.en |
base |
~1 GB |
~16x |
small |
244 M |
small.en |
small |
~2 GB |
~6x |
medium |
769 M |
medium.en |
medium |
~5 GB |
~2x |
large |
1550 M |
N/A |
large |
~10 GB |
1x |
运行环境:
需要ffmpeg,关于ffmpeg的下载请看这篇帖子https://www.52pojie.cn/thread-1950306-1-1.html
python代码:
import whisper
import zhconv
# 加载 whisper 模型,这里使用的是"tiny"版本
model = whisper.load_model("tiny")
'''
tiny 39 M tiny.en tiny ~1 GB ~32x
base 74 M base.en base ~1 GB ~16x
small 244 M small.en small ~2 GB ~6x
medium 769 M medium.en medium ~5 GB ~2x
large 1550 M N/A large ~10 GB 1x
'''
# 使用加载的模型对"1.wav"文件进行语音转文字处理
result = model.transcribe("1.wav")
print(result)
# 将转录结果中的文本转换为简体中文
result=zhconv.convert(result["text"], 'zh-cn')
print(result)
如果没有下载模型会自动下载模型,无需科学。
|