调变频谱特徵正规化於强健语音辨识之研究ExploringModulation.ppt

调变频谱特徵正规化於强健语音辨识之研究ExploringModulation.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
调变频谱特徵正规化於强健语音辨识之研究ExploringModulation.ppt

利用PLSA生成模型參數,重建調變頻譜強度 步驟一:估算任一訓練與測試強度頻譜v之主題機率分布  ,其中 步驟二:估算初步更新之調變頻譜                         ,其中 步驟三:使用模型插補法與背景模型u相結合                   以機率式潛藏語意分析為基礎 之調變頻譜正規化法 * 大綱 * 實驗之語料庫 聲學模型 每個數字以一個隱藏式馬可夫模型(Hidden Markov Model, HMM)表示 每個HMM包含6個狀態,每個狀態利用20個高斯混和表示 語音特徵參數 13維梅爾倒頻譜係數(MFCC),加上第一階與第二階差量係數 實驗設定 * Aurora2.0 語音內容 英文數字單詞:One、Two、…、Nine、Zero、Oh 訓練語料 語句數:8,400 通道效應:G.712 測試語料 測試集 語句數 加成性噪音 通道效應 A 28,028 地下鐵、人聲、汽車、展覽館 G.712 B 28,028 餐廳、街道、機場、火車 G.712 C 14,014 地下鐵、街道 MIRS 訊噪比 乾淨、-5dB、0dB、5dB、10dB、15dB、20dB NMF法與PLSA法 作用於MFCC特徵之實驗結果 * 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 -- NMF r=5 99.59 83.80 85.66 84.36 84.65 45.04 r=10 99.67 83.26 85.26 83.52 84.11 43.11 r=15 99.70 83.07 85.01 83.19 83.87 42.25 r=20 99.71 82.30 84.04 82.49 83.04 39.24 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 ─ ─ PLSA K=5 99.56 89.20 90.20 89.41 89.62 62.84 K=10 99.59 89.05 90.25 89.25 89.57 62.66 K=15 99.61 88.81 90.15 88.87 89.36 61.90 K=20 99.59 88.78 90.18 88.69 89.32 61.76 NMF法結合其他強健性特徵演算法 之實驗結果 * 80.69 88.82 89.00 PLSA法結合其他強健性特徵演算法 之實驗結果 * NMF法於不同特徵參數之實驗結果 * 使用不同分解法之實驗結果 * 這些技術都直接或間接地更新特徵之調變頻譜,進而強化雜訊強健性 雖然NMF法與PLSA法之辨識效能略低於TSN,但也可使總平均辨識率提升至90.60%與90.57% ,此顯示NMF法與PLSA法足以與現今有名的調變頻譜更新技術在效能上並駕齊驅 NMF法及PLSA法與其他強健技術之效能比較 * 經過各種處理方法後之MFCC c1之功率頻譜密度(PSD) PLSA法與NMF法 降低調變頻譜強度失真的效能 * 大綱 * 結論 本論文以一個嶄新的觀點切入調變頻譜正規化之研究,以對調變頻譜進行分解與成分分析為目標,提出兩種變頻譜正規化法 實驗顯示NMF法與PLSA法,皆能有效減緩雜訊所引發的失真問題,並且顯著提昇系統之辨識率 兩種方法跟一些知名的特徵強健技術做結合,皆可進一步提升辨識率,代表所提之新方法與許多特徵強健技術有良好的加成性 結論與未來展望 * 未來展望 目前非負矩陣分解之基底矩陣與編碼矩陣之初始值是由隨機產生的,未來欲找尋其它給定初始值的方法 未來期望能嘗試將其他資料分解(Data Factorization)技術運用於調變頻譜的分析上,進而探討其特性與優缺點 目前提出的兩種分解與分析的方法皆是以調變頻譜為處理目標,未來欲拓展此兩項技術進行探索語音訊號其它特徵域的特性 嘗試將本論文所提出的方法,應用至不同語音辨識任務上,例如大詞彙連續語音辨識系統(LVCSR) 結論與未來展望 * * 謝謝 NMF法結合背景模型 作用於MFCC特徵之實驗結果 * 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 -- NMF r=5 99.58 89.14 90.

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档