語音辨识-技术与应用.pptVIP

下载本文档

34
0
约1.99千字
约 30页
2017-04-09 发布于上海
举报
版权申诉

語音辨识-技术与应用.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

語音辨识-技术与应用

語音辨識 - 技術與應用郭志鳴副教授義守大學電子系 jmkuo@dsp01.isu.edu.tw 內容 1. 簡介 2. 端點偵測 3. 發音原理 4. 聽覺系統 5. 辨識技術 6. 應用領域 7. 結語 1. 簡介語音交談為人類交換訊息最方便的方式。語音辨識的主要目的在提供人性化的操作介面。目前的技術已經逐漸成熟，商品化產品陸續出現應用：讀寫機、語音查詢、聲控家電、... 目的：語音辨識器的分類按照辨識字彙的多寡：少量字彙(數百字)、中量字彙(數千字)、大量字彙(數萬字) 按照使用對象：特定對象(Speaker Dependent)、不特定對象(Speaker Independent) 按照使用方式：不連續語音辨識、連續語音辨識語音辨識的困難語音訊號的差異性大(說話速度、習慣、生理狀況、性別、年齡、地域等) 語音訊號分段的困難辨識率易受背景雜訊的影響辨識模型複雜度高語音訊號的變異性女聲男聲 / No Rush/ 語音辨識系統基本方塊圖辨識模型或樣板語言模型 Pre-amplifying Speech/Silence Segmentation Spectral or Cepstral Features Pitch Contour Dynamic Time Warping Hidden Markov Models Grammar Syntatics 語音訊號辨識結果語言模型的用途 2. 端點偵測決定訊號中語音段的起始點與結束點。 3. 發音原理發音器官：聲帶振動與否，決定產生濁音或清音。發音器官的模型語音訊號雜訊脈衝串列共振腔 T 音高周期音高頻率的估算中文聲調的產生 (I) 台語八音韻母段音高頻率隨時間的變化趨勢中文聲調的產生 (II) 語音訊號的線性預測模型預測模型語音訊號雜訊雜訊發音模型的參數可由預測模型的參數來估算 4. 聽覺系統外耳中耳內耳內耳模型與特徵擷取語音訊號帶通濾波器的功能(I) 語音訊號可分解為許多不同頻率的正弦波成份。帶通濾波器的功能(II) 語音訊號的各頻率組成分別由不同的帶通濾波器穿過。 #14 頻率增益 1861~2139Hz 頻譜特徵圖(Spectrogram) 頻帶時間順序特徵向量記錄各頻帶能量估算值 5. 辨識技術最常使用的語音辨識技術：動態時間軸校準(Dyanmic Time Warping) 隱藏式馬可夫模型(Hidden Markov Model) 動態時間軸校準訓練階段：建立各辨識單元之樣板。使用階段：輸入語音的特徵圖樣與各樣板比對，最接近者即為辨識結果。 ... 計算與辨識單元#1的樣板之距離計算與辨識單元#2的樣板之距離計算與辨識單元#M的樣板之距離輸入語音之特徵圖樣選擇最小值辨識結果時間軸的校準利用動態規畫(Dynamic Programming)計算兩圖樣最小距離的時間對應關係 Pattern #1 Pattern #2 1 2 3 4 5 6 7 1 2 3 4 5 動態時間軸校準提供不同長度的圖樣比對的方法樣板的產生一般選擇各辨識單元較具代表性之特徵圖樣所得到的樣板無法反應語音訊號的變異性 DWT的優缺點隱藏式馬可夫模型訓練階段：建立各辨識單元之統計模型。使用階段：計算由各模型產生輸入語音的機率大小，取其最大者做為辨識結果。計算由模型#1產生的機率值計算由模型#2產生的機率值計算由模型#M產生的機率值 ... 語音特徵圖樣選擇最大值辨識結果 HMM模型架構 S1 S2 S3 S4 觀察機率：狀態轉移機率：計算由HMM模型產生一語音訊號的機率由此一模型產生上述語音特徵圖樣的機率： HMM的優缺點利用機率分佈來描述語音的差異性，能夠得到較佳的辨識率。模型的訓練(建立)方式，仍有改善空間。模型訓練與辨識演算法較DTW複雜許多。 6. 應用領域中文讀寫機：金聲三號(大量字彙、連續語音) 中文資料輸入：音中仙 (以詞為辨識單元) 語音訂位、掛號、查詢：股票指數查詢電話撥接服務：ATT automatic collect call placement system 聲控產品：行動電話語音撥號語音安全系統：語者判別(Speaker Identification)系統發音教學系統：發音練習 7. 結語語音辨識技術可提供系統更具人性化的操作介面。在電腦中文化的過程中扮演著相當重要的角色。目前語音辨識技術仍有許多困難尚待解決，如在吵雜工作環境下辨識率不佳，及對硬體規格要求過高等問題。更高效率的語音辨識仍