关于语音语别的相关知识
最近,想开发一个关于语音识别的软件,现在在资料搜集中。
?
基础知识?
隐马尔科夫模型(HMM) , 这个资料我看了好多资料还不是很完全明白。
?
http://zh.wikipedia.org/zh/%E9%9A%90%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%A8%A1%E5%9E%8B
?
http://blog.csdn.net/caohao2008/archive/2007/05/12/1606220.aspx
?
http://www.360doc.com/content/07/0710/11/11966_603345.shtml
?
http://www.52nlp.cn/hmm-learn-best-practices-four-hidden-markov-models
?
http://www.xactad.org/wenzhang/20100906100659311.pdf
?
?Baum-Welch算法,Incomplete data problem ,Maximum a posteriori decoding;极大似然度
?
编程知识1.如何播放音频信号?
?
wave的播放方法很多,可以用dsound,dshow,甚至是sndPlay,sendMciString等等方法都可以实现。但是这都是对于windows平台下的音频播放,如果换到windows mobile平台,就未必支持以上几种方式,这时就必须用到低级的wave系列的API了。步骤1: 申请二个或二个以上的WAVEHDR结构,m_WaveHdr1,m_WaveHdr2 填充WAVEHDR结构, 如下: m_WaveHdr1.lpData = (LPTSTR)_pWaveData + 44; m_WaveHdr1.dwBufferLength = PLAY_BUFFE_SIZE; m_WaveHdr1.dwBytesRecorded = 0; m_WaveHdr1.dwUser = 0; m_WaveHdr1.dwFlags = WHDR_BEGINLOOP | WHDR_ENDLOOP; m_WaveHdr1.dwLoops = 1; m_WaveHdr1.lpNext = NULL; m_WaveHdr1.reserved = 0; // 第二个的数据起止位置一定要大于第一个数据的播放缓冲大小,否则可能会声音不正常。 m_WaveHdr2.lpData = (LPTSTR)_pWaveData + 44 + PLAY_BUFFE_SIZE; m_WaveHdr2.dwBufferLength = PLAY_BUFFE_SIZE; m_WaveHdr2.dwBytesRecorded = 0; m_WaveHdr2.dwUser = 0; m_WaveHdr2.dwFlags = WHDR_BEGINLOOP | WHDR_ENDLOOP; m_WaveHdr2.dwLoops = 1; m_WaveHdr2.lpNext = NULL; m_WaveHdr2.reserved = 0; 步骤2: 在回调函数、回调线程或回调窗口的 WOM_DONE 响应里,作以下操作, LPWAVEHDR pWaveHeader = (LPWAVEHDR)dwParam1; // 系统自动识别是哪一个WAVEHDR播放完毕 waveOutUnprepareHeader(hwo, pWaveHeader, sizeof(WAVEHDR)); // 清空设备缓存 pWaveHeader->lpData += (5 * PLAY_BUFFE_SIZE); pWaveHeader->dwBufferLength = pThis->m_lLeaveSize < PLAY_BUFFE_SIZE ? pThis->m_lLeaveSize : PLAY_BUFFE_SIZE; // 得到正确的缓冲大小. waveOutPrepareHeader(hwo, pWaveHeader, sizeof(WAVEHDR)); waveOutWrite(hwo, pWaveHeader, sizeof(WAVEHDR)); 完成以上步骤,及可实现多段缓冲播放。
?
如何获得音频信号:
?
?
2.如何处理音频信号?
?
3.如何分析音频信号?
?
?
相关公式
?
窗函数类型矩型窗 RN(n)
汉明窗 0.54-0.46*cos[2*PI*n/(N-1)]???????? 0≤n≤N-1
汉宁窗 0.5*[1-cos[2*PI*n/(N-1)]]?????????????0≤n≤N-1
布莱克曼窗 0.42-0.5*cos[2*PI*n/(N-1)]+0.08cos[4*PI*n/(N-1))*RN(n)
计算功率 h(i)=sqrt(re(i)*re(i)+im(i)*im(i))
计算分贝 dBh(i)=20*log (h(i))
?
?
?
?