国立虎尾科技大学 自动化工程系 98学年度专题制作 期中报告.ppt

国立虎尾科技大学 自动化工程系 98学年度专题制作 期中报告.ppt

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
国立虎尾科技大学 自动化工程系 98学年度专题制作 期中报告

* * * * * * * * * * * * * * 國立虎尾科技大學 自動化工程系 98學年度專題製作 期中報告 語音辨識系統 指導老師:蔡明標 學生: 林信 徐崇目錄 一.前言…………………………………………p.3 二.分析框處理…………………………………p.7 三.端點偵測與擷取……………………………p.9 四.特徵參數擷取………………………………p.12 五.倒頻譜………………………………………p.15 六.倒傳遞類神經網路模型……………………p.18 前 言   語音是人類用來交換訊息最自然的工具,因此設計一套能夠瞭解人類說話內容的語音辨識系統,一直是研究人員的理想與目標語音辨識的結果可應用在不同的領域,譬如在讀寫機(dictation)的應用方面,辨識所得到的文字便會被顯示在文書處理器的文件上,此類的應用提供電腦中文輸入的解決方案。而在語音控制應用上,系統則可依據辨識的結果做出相對應的動作,實際的例子便是汽車行動電話以語音方式撥號,可避免駕駛人分神,維持行車安全。 一般語音辨識系統的架構。它的組成包括:聲音訊號的錄音、有聲段訊號的端點偵測、高頻訊號的強波處理、語音訊號的特徵參數擷取以及語音辨識系統的核心:圖樣辨識,最後即可獲得辨識之結果。所有語音辨識系統的處理流程皆可區分為此六大步驟,而端點偵測、強波處理與特徵參數擷取的過程中,還包括分析框處理。 研 究 動 機   科技的演進,使得電腦成了人們不可或缺的工具,為了讓電腦或電子產品操作更便利,於是學界與業界無不投入心力在操作界面的設計與改良上,期能設計出更人性化的電子產品。目前語音辨識系統的實際應用,包括:語音操控玩具、語音撥號電話、語音密碼鎖、語音電腦操作界面、語音輸入法、語音查詢系統、語音訂票系統等等不勝枚舉。雖然語音辨識系統的應用相當的廣泛,且理論的發展也很完整,但仍有很多地方需要人們不斷的努力和研究可以預期語音辨識應用的範圍,會隨著相關技術的成熟而越來越廣泛。 然而,也要瞭解距離研究人員最終的理想:非特定語者、連續音、無限量字彙語音辨識器的出現,其間還有許多尚待克服的困難;也期待國內有更多更聰明、年輕的學子,能夠一同加入這個尖端且實用的研究領域。 分析框處理   就數學的觀點而言,所謂框分析相當於將訊號乘上分析框函數所得之結果;也就是從訊號中,擷取一小段訊號,並對於所擷取的訊號中之每個取樣點,給予不同的加權值。在此將介紹最常用的兩種分析框(如圖2-3 所示):矩形框(rectangular window)與漢明框(hamming window)。 端點偵測與擷取   在非連續字音辨識(Isolated Word Recognition : IWR)系統中,語音訊號必須先經處理,以判斷訊號中那些區段是有聲段(speech segment),那些是屬於無聲段(silence segment)或背景雜訊,接著再針對有聲段做更進一步的處理,此過程即稱之為語音訊號端點偵測 (End PointDetection)語音訊號端點偵測的主要目的,如上所述是要從所錄下的訊號中,將所需或有效的聲音訊號部份擷取出來(即移除靜音段或背景雜訊),以做更進一步的處理。 語音訊號端點偵測的演算法有很多種,根據其判斷時所採用的參數,大致上可區分為三大類型: (1)時域端點偵測法 (2)頻域端點偵測法 (3)混合參數 其中時域端點偵測法是最簡單也最常被應用的一種方法,但其最大的缺點是對雜訊的免疫力較低;而頻域端點偵測法以及混合參數端點偵測法,兩者的精確度較高,對抗雜訊的能力也較強,唯其所需的計算量較煩雜;故在此我們僅針對時域端點偵測法做詳細的說明。 特徵參數擷取   每個人說話時,隨著其性別、年齡、地域等因素都會有其特定的發音方式,即使是同一個人,在不同心理狀況或生理狀態下所產生的語音訊號也會有所差異;因此若直接採用語音訊號的波形來從事比對的工作,不僅資料的處理量很大,同時所得到的辨識率也是非常有限的;因此在從事語音訊號處理時,得先求得較適當語音訊號特徵參數在語音辨識上常使用的語音特徵可分為兩大類;一為頻譜特徵(spectralfeatures),另一為倒頻譜特徵(cepstral features)。頻譜特徵係指語音訊號在各頻帶的平均能量分佈;倒頻譜特徵則是指語音訊號的倒頻譜係數。雖然頻譜特徵似乎更接近人類聽覺系統所處理的訊息,但根據目前研究的結果顯示,使用倒頻譜特徵往往可得到較高的語音辨識率,因此倒頻譜特徵已成為目前最常被使用的語音特徵。 在做語音訊號特徵參數求取之前,須對語音訊號做前置強波處理,主要是濁音

文档评论(0)

ligennv1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档