清大多媒体资讯检索实验室.ppt

下载文档 降价啦

3
0
约5.04千字
约 35页
2018-06-04 发布于河南
举报
版权申诉
保障服务

清大多媒体资讯检索实验室.ppt

1、本文档共35页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

清大多媒体资讯检索实验室

清大多媒體資訊檢索實驗室以音節為基礎之語者識別 Syllable-Based Speaker Identification 學生：吳銘鈞教授：張智星大綱研究動機相關研究語者識別辨識流程實驗結果結論及展望研究動機語者辨識應用性廣泛門禁或金融交易系統電話聲紋追蹤飛機機型的識別結合其他相關技術 Hidden Markov Model 語音訊號切割切除單音節中的氣音相關研究 Combined speech and speaker recognition with speaker-adapted connectionist models -Dominique Genoud, Dan Ellis, and Nelson Morgan Phonetic speaker recognition -Mary A. Kohler, Walter D. Andrews, Joseph P. Campbell, and Jaime Hernandez-Cordero Speaker recognition using artificial neural networks based on vowel phonemes -Ehab F. M. F. Badran, and Hany Selim 結合 HMM 語音技術原理利用 HMM 所訓練的聲學模型及 Viterbi decoding 可以得到語句中每個音節的發音及起始位置目的 : 以音節為基礎的語者識別語者聲學特徵用一組聲學模型無法描述得很好每個發音訓練一組模型，語者擁有各發音模型發音模型能將語者聲學特徵描述較為完善切除單音節中的氣音氣音對於語者辨認是較無意義的資訊一般語者識別-概述以音節為基礎的語者識別-概述辨識流程語音資料庫 HMM聲學模型的訓練語料聲學模型由長庚大學 MSP 實驗室所提供訓練語料為100人錄音，共45000句，時間約11.3小時內容為國語語句，為415發音的平衡句取樣頻率為16 KHz GMM語者模型的訓練語料以及測試語料 60人(49男11女)錄音，共6000句，時間約8.3小時內容為國語唐詩語句，非415發音的平衡句取樣頻率為16 KHz 特徵參數抽取特徵參數抽取 (Cont.) GMM 語者模型 12維的MFCC HMM 聲學模型 39維的MFCC 語音訊號切割樹狀網路 (Tree net) 限定語句內容搜尋速度較快辨識率較高語音訊號切割 (Cont.) 自由音節解碼 (Free syllable decoding) 不限定語句內容搜尋速度較慢辨識率較低語者發音模型訓練語者語料根據音節發音作分類例如音節發音為「Jy」的分在同一類，其他依此類推每個語者會擁有 415 發音語料進行特徵參數的抽取以高斯混合模型去訓練各發音模型效能評估方法實驗一:以音節為基礎的語者識別使用語料從 60 人語料中選取 10 人外部測試(Outside test) 訓練語句 : 第 1~50 句測試語句 : 第 51~100 句高斯混合模型混合數(Mixture) : { 1, 2, 4, 6, 8 } 實驗一 (Cont.) 實驗一 (Cont.) 實驗一 (Cont.) 實驗二:根據韻母作相近音分類根據韻母將 415 音分成 32 類相近音因為每個發音的語料不充足且不平均作相近音分類可解決此問題，且不違背原始的目的相近音分類表：實驗二 (Cont.) 實驗三:切除單音節的氣音部分原理 : 氣音對語者識別是較無意義的資訊目的 : 可以減少參數量加快模型訓練及比對的速度理想做法 : 利用HMM去得到音節中各模型(Model)間的轉換點實驗三 (Cont.) 實際做法：直接切除單音節前面 1/2 的音框實驗三 (Cont.) 實驗四:訓練語句數量與辨識率訓練語句 : { 30, 40, 50, 60, 70 } 測試語句 : 10 混合數(Mixture) : 8 實驗五:混合數與辨識率訓練語句 : 50 測試語句 : 10 混合數(Mixture) : { 4, 6, 8, 10, 12 } 實驗六:TIMIT語料 630人錄音，共6300句，英文語句內部測試第01~10句訓練，第09~10句測試外部測試第01~08句訓練，第09~10句測試混合數 8個實驗六 (Cont.) 錯誤分析唐詩語料部分部分相近音分類的辨識效果差ㄜ，ㄟ，ㄥ，ㄧ，ㄝ 32分類 = 16分類辨識率 93.17% = 95.50% 音節發音辨識錯誤錯誤率約 8.14% (Tree net) 錯