网站大量收购独家精品文档,联系QQ:2885784924

清大多媒体资讯检索实验室.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
清大多媒体资讯检索实验室

清大多媒體資訊檢索實驗室 以音節為基礎之語者識別 Syllable-Based Speaker Identification 學生 : 吳銘鈞 教授 : 張智星 大綱 研究動機 相關研究 語者識別 辨識流程 實驗結果 結論及展望 研究動機 語者辨識應用性廣泛 門禁或金融交易系統 電話聲紋追蹤 飛機機型的識別 結合其他相關技術 Hidden Markov Model 語音訊號切割 切除單音節中的氣音 相關研究 Combined speech and speaker recognition with speaker-adapted connectionist models -Dominique Genoud, Dan Ellis, and Nelson Morgan Phonetic speaker recognition -Mary A. Kohler, Walter D. Andrews, Joseph P. Campbell, and Jaime Hernandez-Cordero Speaker recognition using artificial neural networks based on vowel phonemes -Ehab F. M. F. Badran, and Hany Selim 結合 HMM 語音技術 原理 利用 HMM 所訓練的聲學模型及 Viterbi decoding 可以得到語句中每個音節的發音及起始位置 目的 : 以音節為基礎的語者識別 語者聲學特徵用一組聲學模型無法描述得很好 每個發音訓練一組模型,語者擁有各發音模型 發音模型能將語者聲學特徵描述較為完善 切除單音節中的氣音 氣音對於語者辨認是較無意義的資訊 一般語者識別-概述 以音節為基礎的語者識別-概述 辨識流程 語音資料庫 HMM聲學模型的訓練語料 聲學模型由長庚大學 MSP 實驗室所提供 訓練語料為100人錄音,共45000句,時間約11.3小時 內容為國語語句,為415發音的平衡句 取樣頻率為16 KHz GMM語者模型的訓練語料以及測試語料 60人(49男11女)錄音,共6000句,時間約8.3小時 內容為國語唐詩語句,非415發音的平衡句 取樣頻率為16 KHz 特徵參數抽取 特徵參數抽取 (Cont.) GMM 語者模型 12維的MFCC HMM 聲學模型 39維的MFCC 語音訊號切割 樹狀網路 (Tree net) 限定語句內容 搜尋速度較快 辨識率較高 語音訊號切割 (Cont.) 自由音節解碼 (Free syllable decoding) 不限定語句內容 搜尋速度較慢 辨識率較低 語者發音模型訓練 語者語料根據音節發音作分類 例如音節發音為「Jy」的分在同一類,其他依此類推 每個語者會擁有 415 發音語料 進行特徵參數的抽取 以高斯混合模型去訓練各發音模型 效能評估方法 實驗一:以音節為基礎的語者識別 使用語料 從 60 人語料中選取 10 人 外部測試(Outside test) 訓練語句 : 第 1~50 句 測試語句 : 第 51~100 句 高斯混合模型 混合數(Mixture) : { 1, 2, 4, 6, 8 } 實驗一 (Cont.) 實驗一 (Cont.) 實驗一 (Cont.) 實驗二:根據韻母作相近音分類 根據韻母將 415 音分成 32 類相近音 因為每個發音的語料不充足且不平均 作相近音分類可解決此問題,且不違背原始的目的 相近音分類表: 實驗二 (Cont.) 實驗三:切除單音節的氣音部分 原理 : 氣音對語者識別是較無意義的資訊 目的 : 可以減少參數量 加快模型訓練及比對的速度 理想做法 : 利用HMM去得到音節中各模型(Model)間的轉換點 實驗三 (Cont.) 實際做法: 直接切除單音節前面 1/2 的音框 實驗三 (Cont.) 實驗四:訓練語句數量與辨識率 訓練語句 : { 30, 40, 50, 60, 70 } 測試語句 : 10 混合數(Mixture) : 8 實驗五:混合數與辨識率 訓練語句 : 50 測試語句 : 10 混合數(Mixture) : { 4, 6, 8, 10, 12 } 實驗六:TIMIT語料 630人錄音,共6300句,英文語句 內部測試 第01~10句訓練,第09~10句測試 外部測試 第01~08句訓練,第09~10句測試 混合數 8個 實驗六 (Cont.) 錯誤分析 唐詩語料部分 部分相近音分類的辨識效果差 ㄜ,ㄟ,ㄥ,ㄧ,ㄝ 32分類 = 16分類 辨識率 93.17% = 95.50% 音節發音辨識錯誤 錯誤率約 8.14% (Tree net) 錯

您可能关注的文档

文档评论(0)

cgtk187 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档