python调用ffmpeg切割音频静音段

typps · 发表于 2024-7-24 13:50

工作涉及，写了个根据音频静音段切割音频的小脚本，理论上可以做到按句按段分割长语音

[Asm] 纯文本查看 复制代码

from pydub import AudioSegment
from pydub.silence import split_on_silence
import os


# 设置分割参数
min_silence_len = 400  # 最小静音长度
silence_thresh = -60  # 静音阈值，越小越严格
keep_silence = 200  # 保留静音长度
all_dur_sec = 0.0

max_dur_sec = 15.0

long_dir = "D:/剪辑前"
save_dir = "D:/剪辑后"
if not os.path.exists(save_dir):
    os.system(f"mkdir -p {save_dir}")
with open(os.path.join(save_dir, "meta.info"), mode='w', encoding='utf-8') as fW:
    for fname in os.listdir(long_dir):
        if 'wav' not in fname:
            continue
        ffname = fname.split(".")[0]
        print(f"current file {fname} ...  ")
        # 读取音频文件
        audio = AudioSegment.from_file(
            os.path.join(long_dir, fname), format="wav")
        segments = split_on_silence(audio, min_silence_len=min_silence_len,
                                    silence_thresh=silence_thresh, keep_silence=keep_silence)
        print(f"Len: {len(segments)}")
        
        for i in range(0, len(segments)):
            sp_wav = f"{ffname}_{str(i).zfill(4)}.wav"
            segments[i].export(
                os.path.join(save_dir, sp_wav), format="wav")
            fW.write(f"{sp_wav}\t{segments[i].duration_seconds}\n")
            all_dur_sec += segments[i].duration_seconds
            if segments[i].duration_seconds > max_dur_sec:
                print(f"{sp_wav}\t{segments[i].duration_seconds}")
print(f"all dur sec : {all_dur_sec/60.0} min")

# 计算分割数量
# num_segments = int(audio.duration_seconds/60/3)  # 每个音频大概三分钟，计算歌曲数量

# # 分割音频文件
# for i in range(-10, 0):

#     if len(segments) <= num_segments:
#         print(f"分割成功，共分割出 {len(segments)} 段")
#         break
#     else:
#         print(f"当前阈值为 {i}，分割出 {len(segments)} 段，继续尝试")

LUYAJUN · 发表于 2024-8-13 16:21

typps 发表于 2024-8-12 12:16
哇，是我完全没想到的应用途径，厉害厉害～

因为课文朗读不同于“文字转语音”，课文朗读在于读出情感，读出意境，在于读出作者所要表达的思想，必须是朗诵专家的音频文件才有用。目前农村小学晨读仍然还是老师带读课文，问题是部分老师自己普通话仍不标准，所以急需一款课文带读软件，软件要求在语音停顿处，增加（语音停顿处）前面语句的时长空白，另加1-2秒（学生听完语音带读后的反应时间），比喻说软件识别朗诵专家读某一句为3秒，则后面停顿时间为4秒或5秒。希望大佬能出来软件，帮助广大的农村一线老师，也帮助广大的农村孩子学号标准的普通话。

wapjsx · 发表于 2024-7-24 16:28

谢谢，了解了下 pydub 模块。

gostopy · 发表于 2024-7-24 17:05

谢谢谢谢谢谢

ruanxiaoqi · 发表于 2024-7-24 17:17

可以精准进行切割，便捷准确，实用高效！

WANGTL1223 · 发表于 2024-7-24 22:09

这个东西总是不定时出现权限问题
你们有遇到过吗有什么一劳永逸的解决办法吗

typps · 发表于 2024-7-25 09:08

WANGTL1223 发表于 2024-7-24 22:09
这个东西总是不定时出现权限问题
你们有遇到过吗有什么一劳永逸的解决办法吗

啊？没遇到过诶，是不是ffmpeg环境变量没配置对呀，可以检查一下

newjre · 发表于 2024-7-25 10:42

学习学习

henryzhu · 发表于 2024-7-25 23:45

ffmpeg非常好，楼主思路不错！

Fwing · 发表于 2024-7-26 01:14

思路很好，准备测试下效果。

zab8888 · 发表于 2024-7-30 15:04

学习了，回头测试一下

帐号		自动登录	找回密码
密码			注册[Register]

[Python 原创] python调用ffmpeg切割音频静音段

免费评分

个人中心