- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
語音辨识-技术与应用
語音辨識 - 技術與應用
郭志鳴 副教授
義守大學 電子系
jmkuo@dsp01.isu.edu.tw
內容
1. 簡介
2. 端點偵測
3. 發音原理
4. 聽覺系統
5. 辨識技術
6. 應用領域
7. 結語
1. 簡介
語音交談為人類交換訊息最方便的方式。
語音辨識的主要目的在提供人性化的操作介面。
目前的技術已經逐漸成熟,商品化產品陸續出現
應用:讀寫機、語音查詢、聲控家電、...
目的:
語音辨識器的分類
按照辨識字彙的多寡:
少量字彙(數百字)、
中量字彙(數千字)、
大量字彙(數萬字)
按照使用對象:
特定對象(Speaker Dependent)、
不特定對象(Speaker Independent)
按照使用方式:
不連續語音辨識、
連續語音辨識
語音辨識的困難
語音訊號的差異性大(說話速度、習慣、生理狀況、性別、年齡、地域等)
語音訊號分段的困難
辨識率易受背景雜訊的影響
辨識模型複雜度高
語音訊號的變異性
女聲
男聲
/ No Rush/
語音辨識系統基本方塊圖
辨識模型或樣板
語言模型
Pre-amplifying
Speech/Silence Segmentation
Spectral or Cepstral Features
Pitch Contour
Dynamic Time Warping
Hidden Markov Models
Grammar
Syntatics
語音訊號
辨識結果
語言模型的用途
2. 端點偵測
決定訊號中語音段的起始點與結束點。
3. 發音原理
發音器官:
聲帶振動與否,決定產生濁音或清音。
發音器官的模型
語音訊號
雜訊
脈衝串列
共振腔
T
音高周期
音高頻率的估算
中文聲調的產生 (I)
台語八音
韻母段音高頻率隨時間的變化趨勢
中文聲調的產生 (II)
語音訊號的線性預測模型
預測模型
語音訊號
雜訊
雜訊
發音模型的參數可由預測模型的參數來估算
4. 聽覺系統
外耳
中耳
內耳
內耳模型與特徵擷取
語音訊號
帶通濾波器的功能(I)
語音訊號可分解為許多不同頻率的正弦波成份。
帶通濾波器的功能(II)
語音訊號的各頻率組成分別由不同的帶通濾波器穿過。
#14
頻率
增益
1861~2139Hz
頻譜特徵圖(Spectrogram)
頻帶
時間順序
特徵向量
記錄各頻帶能量估算值
5. 辨識技術
最常使用的語音辨識技術:
動態時間軸校準(Dyanmic Time Warping)
隱藏式馬可夫模型(Hidden Markov Model)
動態時間軸校準
訓練階段:建立各辨識單元之樣板。
使用階段:輸入語音的特徵圖樣與各樣板比對,最接近者即為辨識結果。
...
計算與辨識單元#1的樣板之距離
計算與辨識單元#2的樣板之距離
計算與辨識單元#M的樣板之距離
輸入語音之特徵圖樣
選擇最小值
辨識結果
時間軸的校準
利用動態規畫(Dynamic Programming)計算兩圖樣最小距離的時間對應關係
Pattern #1
Pattern #2
1 2 3 4 5 6 7
1 2 3 4 5
動態時間軸校準提供不同長度的圖樣比對的方法
樣板的產生一般選擇各辨識單元較具代表性之特徵圖樣
所得到的樣板無法反應語音訊號的變異性
DWT的優缺點
隱藏式馬可夫模型
訓練階段:建立各辨識單元之統計模型。
使用階段:計算由各模型產生輸入語音的機率大小,取其最大者做為辨識結果。
計算由模型#1產生的機率值
計算由模型#2產生的機率值
計算由模型#M產生的機率值
...
語音特徵圖樣
選擇最大值
辨識結果
HMM模型架構
S1
S2
S3
S4
觀察機率:
狀態轉移機率:
計算由HMM模型產生一語音訊號的機率
由此一模型產生上述語音特徵圖樣的機率:
HMM的優缺點
利用機率分佈來描述語音的差異性,能夠得到較佳的辨識率。
模型的訓練(建立)方式,仍有改善空間。
模型訓練與辨識演算法較DTW複雜許多。
6. 應用領域
中文讀寫機:金聲三號(大量字彙、連續語音)
中文資料輸入:音中仙 (以詞為辨識單元)
語音訂位、掛號、查詢:股票指數查詢
電話撥接服務:ATT automatic collect call placement system
聲控產品:行動電話語音撥號
語音安全系統:語者判別(Speaker Identification)系統
發音教學系統:發音練習
7. 結語
語音辨識技術可提供系統更具人性化的操作介面。在電腦中文化的過程中扮演著相當重要的角色。
目前語音辨識技術仍有許多困難尚待解決,如在吵雜工作環境下辨識率不佳,及對硬體規格要求過高等問題。
更高效率的語音辨識仍
您可能关注的文档
最近下载
- 2019北京高三二模七选五汇编.docx VIP
- Unit 3 Food 知识清单(六大知识题型)总梳理(解析版).docx VIP
- 统编版道德与法治三年级上册第8课《同学相伴》教学设计.docx VIP
- 2025至2030年中国管道直饮水市场发展前景分析及行业投资规划建议报告.docx
- 单髁置换手术步骤.pptx VIP
- Unit 3 Food 知识清单(六大知识题型)总梳理(原卷版).docx VIP
- 教师评课用语缺点建议.doc VIP
- 2025年全国红十字应急救护竞赛活动考试题库300题(含答案).docx
- 互联网交往的利与弊-教学素材【课件】.ppt VIP
- 急性肾损伤的护理.pptx VIP
原创力文档


文档评论(0)