调变频谱特徵正规化於强健语音辨识之研究ExploringModulation.ppt

下载文档 降价啦

4
0
约5.26千字
约 35页
2017-03-11 发布于天津
举报
版权申诉
保障服务

调变频谱特徵正规化於强健语音辨识之研究ExploringModulation.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

利用PLSA生成模型參數，重建調變頻譜強度步驟一：估算任一訓練與測試強度頻譜v之主題機率分布　，其中步驟二：估算初步更新之調變頻譜　　　　　　　　　　　　　　　　　　　　　　，其中步驟三：使用模型插補法與背景模型u相結合　　　　　　　　　　　　　　　　　以機率式潛藏語意分析為基礎之調變頻譜正規化法 * 大綱 * 實驗之語料庫聲學模型每個數字以一個隱藏式馬可夫模型(Hidden Markov Model, HMM)表示每個HMM包含6個狀態，每個狀態利用20個高斯混和表示語音特徵參數 13維梅爾倒頻譜係數(MFCC)，加上第一階與第二階差量係數實驗設定 * Aurora2.0 語音內容英文數字單詞：One、Two、…、Nine、Zero、Oh 訓練語料語句數：8,400 通道效應：G.712 測試語料測試集語句數加成性噪音通道效應 A 28,028 地下鐵、人聲、汽車、展覽館 G.712 B 28,028 餐廳、街道、機場、火車 G.712 C 14,014 地下鐵、街道 MIRS 訊噪比乾淨、-5dB、0dB、5dB、10dB、15dB、20dB NMF法與PLSA法作用於MFCC特徵之實驗結果 * 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 －－ NMF r=5 99.59 83.80 85.66 84.36 84.65 45.04 r=10 99.67 83.26 85.26 83.52 84.11 43.11 r=15 99.70 83.07 85.01 83.19 83.87 42.25 r=20 99.71 82.30 84.04 82.49 83.04 39.24 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 ─ ─ PLSA K=5 99.56 89.20 90.20 89.41 89.62 62.84 K=10 99.59 89.05 90.25 89.25 89.57 62.66 K=15 99.61 88.81 90.15 88.87 89.36 61.90 K=20 99.59 88.78 90.18 88.69 89.32 61.76 NMF法結合其他強健性特徵演算法之實驗結果 * 80.69 88.82 89.00 PLSA法結合其他強健性特徵演算法之實驗結果 * NMF法於不同特徵參數之實驗結果 * 使用不同分解法之實驗結果 * 這些技術都直接或間接地更新特徵之調變頻譜，進而強化雜訊強健性雖然NMF法與PLSA法之辨識效能略低於TSN，但也可使總平均辨識率提升至90.60%與90.57% ，此顯示NMF法與PLSA法足以與現今有名的調變頻譜更新技術在效能上並駕齊驅 NMF法及PLSA法與其他強健技術之效能比較 * 經過各種處理方法後之MFCC c1之功率頻譜密度(PSD) PLSA法與NMF法降低調變頻譜強度失真的效能 * 大綱 * 結論本論文以一個嶄新的觀點切入調變頻譜正規化之研究，以對調變頻譜進行分解與成分分析為目標，提出兩種變頻譜正規化法實驗顯示NMF法與PLSA法，皆能有效減緩雜訊所引發的失真問題，並且顯著提昇系統之辨識率兩種方法跟一些知名的特徵強健技術做結合，皆可進一步提升辨識率，代表所提之新方法與許多特徵強健技術有良好的加成性結論與未來展望 * 未來展望目前非負矩陣分解之基底矩陣與編碼矩陣之初始值是由隨機產生的，未來欲找尋其它給定初始值的方法未來期望能嘗試將其他資料分解(Data Factorization)技術運用於調變頻譜的分析上，進而探討其特性與優缺點目前提出的兩種分解與分析的方法皆是以調變頻譜為處理目標，未來欲拓展此兩項技術進行探索語音訊號其它特徵域的特性嘗試將本論文所提出的方法，應用至不同語音辨識任務上，例如大詞彙連續語音辨識系統(LVCSR) 結論與未來展望 * * 謝謝 NMF法結合背景模型作用於MFCC特徵之實驗結果 * 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 －－ NMF r=5 99.58 89.14 90.