關(guān)鍵詞:喉振傳聲器 語音盲增強 遞歸神經(jīng)網(wǎng)絡 長短時記憶 非負矩陣分解
摘要:喉振傳聲器以其優(yōu)良的抗噪聲特性已在多種強噪聲場景中得到應用,但其產(chǎn)生的語音尚存在著中頻成份厚重、高頻成份缺失等問題,嚴重影響了語音的清晰度和可懂度。為改善喉振傳聲器的語音質(zhì)量,本文提出了一種基于長短時記憶遞歸神經(jīng)網(wǎng)絡(Long short term memory recurrent neuralnetworks,LSTM-RNN)的喉振傳聲器語音盲增強算法。與基于低維的譜包絡特征估計算法不同,該算法首先利用LSTM-RNN對喉振傳聲器語音與空氣傳導語音的高維對數(shù)幅度譜之間的轉(zhuǎn)換關(guān)系進行建模,能有效捕捉上下文信息實現(xiàn)語音幅度譜的重構(gòu),然后采用非負矩陣分解(Non-negative matrixfactorization,NMF)對估計出的語音幅度譜進行處理,有效抑制了過平滑問題,進一步提高了語音質(zhì)量。仿真實驗得到的LLR,LSD,PESQ性能指標表明,該算法可有效改善喉振傳聲器的語音質(zhì)量。
數(shù)據(jù)采集與處理雜志要求:
{1}基金項目:如果論文是項目成果,請按“項目名稱(項目號)”的形式寫出。項目名稱與項目號兩者都要有。
{2}稿件應具有科學性、創(chuàng)新性和實用性,論點明確、論據(jù)可靠、數(shù)據(jù)準確、邏輯嚴謹、文字通順。
{3}文中圖表或插圖請附清晰的原圖文件(tif. 或eps.格式,不低于600 像素)。
{4}注釋是對論文中某一特定內(nèi)容的解釋或補充說明,用帶圈數(shù)字注于當頁頁腳。
{5}稿件文字、標點、年代、數(shù)字等書寫方式均以國家有關(guān)規(guī)定為準。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社