静音检测
vad(voice activity dectection)是针对一段音频中,检测出有语音出现的时间段。
现在的要求是,针对一段音频,检测出有正常音频信号(非噪声),例如音乐、语音、机器声等,出现的时间段。
现有的vad很多都是基于语音信号的特征,因此我觉得不太符合上面的要求,例如音乐声可能就被判断为噪声,那么就不和要求了。
最简单的想法是基于信号的幅度,有效的信号幅度高,噪声的幅度小,但是从网上看了一些自适应的基于能量(信号幅度)的方法,测试了一下不够理想,主要是自适应并不能真正做到自适应。
请各位高手指点一下思路。
多谢了!
[解决办法]
没搞过,帮顶一个,建议搜索一下国内外的相关论文看一下。
[解决办法]
speex里面有 vad 静音检查这项,但是我一直没有用起来,不知道怎么用,
NS (噪音),AGC(自动音量控制) ,AEC(回音消除) 经过测试是OK的。
可以讨论一下 里面的vad
[解决办法]
你试试看下每隔某人时间段比如 20ms的数据 的平均值是不是在相同,或者相差不大,如果是相同的话,应该可以当做静音了,因为我试过播放一组相同的声音数据,,但听不到声音,
不清楚原理
[解决办法]
计算帧的能量值,然后和阈值比较即可
[解决办法]
做个记号,以后有可能用到。
[解决办法]