語音辨识-技术与应用.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
語音辨识-技术与应用

語音辨識 - 技術與應用 郭志鳴 副教授 義守大學 電子系 jmkuo@dsp01.isu.edu.tw 內容 1. 簡介 2. 端點偵測 3. 發音原理 4. 聽覺系統 5. 辨識技術 6. 應用領域 7. 結語 1. 簡介 語音交談為人類交換訊息最方便的方式。 語音辨識的主要目的在提供人性化的操作介面。 目前的技術已經逐漸成熟,商品化產品陸續出現 應用:讀寫機、語音查詢、聲控家電、... 目的: 語音辨識器的分類 按照辨識字彙的多寡: 少量字彙(數百字)、 中量字彙(數千字)、 大量字彙(數萬字) 按照使用對象: 特定對象(Speaker Dependent)、 不特定對象(Speaker Independent) 按照使用方式: 不連續語音辨識、 連續語音辨識 語音辨識的困難 語音訊號的差異性大(說話速度、習慣、生理狀況、性別、年齡、地域等) 語音訊號分段的困難 辨識率易受背景雜訊的影響 辨識模型複雜度高 語音訊號的變異性 女聲 男聲 / No Rush/ 語音辨識系統基本方塊圖 辨識模型或樣板 語言模型 Pre-amplifying Speech/Silence Segmentation Spectral or Cepstral Features Pitch Contour Dynamic Time Warping Hidden Markov Models Grammar Syntatics 語音訊號 辨識結果 語言模型的用途 2. 端點偵測 決定訊號中語音段的起始點與結束點。 3. 發音原理 發音器官: 聲帶振動與否,決定產生濁音或清音。 發音器官的模型 語音訊號 雜訊 脈衝串列 共振腔 T 音高周期 音高頻率的估算 中文聲調的產生 (I) 台語八音 韻母段音高頻率隨時間的變化趨勢 中文聲調的產生 (II) 語音訊號的線性預測模型 預測模型 語音訊號 雜訊 雜訊 發音模型的參數可由預測模型的參數來估算 4. 聽覺系統 外耳 中耳 內耳 內耳模型與特徵擷取 語音訊號 帶通濾波器的功能(I) 語音訊號可分解為許多不同頻率的正弦波成份。 帶通濾波器的功能(II) 語音訊號的各頻率組成分別由不同的帶通濾波器穿過。 #14 頻率 增益 1861~2139Hz 頻譜特徵圖(Spectrogram) 頻帶 時間順序 特徵向量 記錄各頻帶能量估算值 5. 辨識技術 最常使用的語音辨識技術: 動態時間軸校準(Dyanmic Time Warping) 隱藏式馬可夫模型(Hidden Markov Model) 動態時間軸校準 訓練階段:建立各辨識單元之樣板。 使用階段:輸入語音的特徵圖樣與各樣板比對,最接近者即為辨識結果。 ... 計算與辨識單元#1的樣板之距離 計算與辨識單元#2的樣板之距離 計算與辨識單元#M的樣板之距離 輸入語音之特徵圖樣 選擇最小值 辨識結果 時間軸的校準 利用動態規畫(Dynamic Programming)計算兩圖樣最小距離的時間對應關係 Pattern #1 Pattern #2 1 2 3 4 5 6 7 1 2 3 4 5 動態時間軸校準提供不同長度的圖樣比對的方法 樣板的產生一般選擇各辨識單元較具代表性之特徵圖樣 所得到的樣板無法反應語音訊號的變異性 DWT的優缺點 隱藏式馬可夫模型 訓練階段:建立各辨識單元之統計模型。 使用階段:計算由各模型產生輸入語音的機率大小,取其最大者做為辨識結果。 計算由模型#1產生的機率值 計算由模型#2產生的機率值 計算由模型#M產生的機率值 ... 語音特徵圖樣 選擇最大值 辨識結果 HMM模型架構 S1 S2 S3 S4 觀察機率: 狀態轉移機率: 計算由HMM模型產生一語音訊號的機率 由此一模型產生上述語音特徵圖樣的機率: HMM的優缺點 利用機率分佈來描述語音的差異性,能夠得到較佳的辨識率。 模型的訓練(建立)方式,仍有改善空間。 模型訓練與辨識演算法較DTW複雜許多。 6. 應用領域 中文讀寫機:金聲三號(大量字彙、連續語音) 中文資料輸入:音中仙 (以詞為辨識單元) 語音訂位、掛號、查詢:股票指數查詢 電話撥接服務:ATT automatic collect call placement system 聲控產品:行動電話語音撥號 語音安全系統:語者判別(Speaker Identification)系統 發音教學系統:發音練習 7. 結語 語音辨識技術可提供系統更具人性化的操作介面。在電腦中文化的過程中扮演著相當重要的角色。 目前語音辨識技術仍有許多困難尚待解決,如在吵雜工作環境下辨識率不佳,及對硬體規格要求過高等問題。 更高效率的語音辨識仍

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档