- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音辨识系统之语者调适及正规化技术研究
2002/02/20 K.-T. Chen, Spoken Language Group, CIPL, IIS, Academia Sinica 語音辨識系統之語者調適及正規化技術研究 A Study on Speaker Adaptation/Normalization Techniques in Speech Recognition Systems 研究生助教:陳冠廷 授課教師:李琳山教授 Outline 研究主題簡介:語者調適及正規化技術在語音辨識系統中之重要性 研究規劃及預期成果 實驗環境簡介 研究主題說明,相關參考資料與文獻 研究方向一:聲學模型層次之語者調適 (model-level speaker adaptation) 研究方向二:考慮語者正規化之聲學模型訓練技術 (speaker adaptive training) 研究方向三:特徵參數層次之語者正規化 (feature-level speaker normalization) 助教聯絡方式: (email) kenneth@iis.sinica.edu.tw 專題研究說明 研究主題簡介:語者調適及正規化技術在語音辨識系統中之重要性 (1/3) 聲學層次(acoustic level)的語者特性(speaker characteristics) 語者內變異性 (intra-speaker variability) 或語音變異性 (phonetic variability): 同一語者在發各種不同音素時,會自然呈現不同的聲學現象,例如: “but” vs. “bit” 語者間變異性 (inter-speaker variability): 不同語者發同一音素時,所呈現的聲學現象會隨語者特性而有所不同 影響語者特性的因素:語者的聲道 (vocal tract) 長度/形狀、說話速度、說話習慣… 等等 對於語者特性問題,語音辨識系統的設計目標 能針對每位測試語者,充分掌握其語音變異性,準確辨識其語音訊號的內容 降低語者間變異性對辨識效能的影響 研究主題簡介:語者調適及正規化技術在語音辨識系統中之重要性 (2/3) 語者不特定 (speaker-independent, SI) 系統 聲學模型的訓練語料包含多位語者的語音樣本 模型參數可描述多位訓練語者在聲學特性上的平均表現;使系統兼顧語者內 (語音) 變異性與語者間變異性的處理能力 系統在一定程度上能辨識任意新測試語者的語音 缺點:測試語者的獨特聲學特性,造成其與訓練語者特性的不匹配 (mismatch)。系統無法精確掌握測試語者的語音變異性,導致辨識效能的降低 語者特定 (speaker-dependent, SD) 系統 聲學模型的訓練語料完全來自使用者 (測試語者) 模型參數能精確描述測試語者的語音變異性;不受語者間變異性的影響 效能優於語者不特定系統 缺點:需要測試語者提供大量語料以訓練聲學模型 研究主題簡介:語者調適及正規化技術在語音辨識系統中之重要性 (3/3) 關鍵:解決測試語者特性對語者不特定系統效能的影響 且不須蒐集測試語者的大量語料作為調整系統之用 語者正規化 (Speaker Normalization) 在特徵參數擷取 (feature extraction) 階段,或聲學模型訓練 (acoustic model training) 階段,設法消除語者間變異性 代表技術:Vocal Tract Length Normalization (VTLN), Speaker Adaptive Training (SAT) 語者調適 (Speaker Adaptation) 利用測試語者的少量調適語料 (adaptation data) 進行聲學模型參數的調整,設法提高模型對其語者內 (語音) 變異性的掌握程度 代表技術:Maximum a Posteriori (MAP) adaptation, Maximum Likelihood Linear Regression (MLLR) adaptation Speaker Characteristics:Practical Issue in Speech Recognition General HMM-based Speech Recognition System Tackling Speaker Char. MismatchStrategy 1: Feature-based Normalization Tackling Speaker Char. Mismatch Strategy 2: Model Adaptation 研究規劃概要 要求 就現今語音辨識研究領域中常見的語者調適及正規化技術,由助教所提的研究方向(請見下
您可能关注的文档
最近下载
- 河南省信阳市2024-2025学年普通高中高三第二次教学质量检测英语试卷含答案.pdf VIP
- 解读《GB_T 23850-2024工业高氯酸钠》全面解读.docx VIP
- 总经理股东会汇报.docx
- 2025-2030中国二甲基氨基丙胺(DMAPA)行业市场现状供需分析及投资评估规划分析研究报告.docx
- 上海市浦东新区立信会计金融学院附属高行中学2025-2026学年高三上学期9月教学质量检测数学试题+答案.docx VIP
- 点石斋画报.12集.24册.申报馆编印.1884-1889年.pdf VIP
- 印学话西泠 教学课件.pptx VIP
- 慢性呼吸疾病肺康复护理专家共识.pptx
- 七年级数学上册动点问题练习.docx VIP
- GB50666-2011 混凝土结构工程施工规范.docx
原创力文档


文档评论(0)