语音辨识.docVIP

下载本文档

0
0
约 7页
2017-06-28 发布于天津
举报
版权申诉

语音辨识.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音辨识

語音辨識何謂語音　所謂語音，是泛指任何我們耳朵所能聽見的聲音，但不包括利用音樂處理晶片所製造的音樂。因為我們在做語音處理時，所播錄的語音資料與我們耳朵所聽見的聲音是相同的；而利用音樂處理晶片所製造的音樂，與我們所聽見的聲音並不一樣。認識語音信號　　任何信號都可以波的形式表示，語音信號也不例外。談到波形，不免要談到振幅、週期等等。而像語音訊號的波形，我們可以在不同的時間區段上找到不同的週期，造成這種現象的主要原因，乃是因為語音訊號本身是由很多具有不同週期的訊號所組成。這種週期隨時間變化的訊號，我們稱為非固定式（nonstationary）的訊號。而固定式如sin，cos，…。　　然而對非固定式的訊號來說，要辨識它們並不容易，以語音訊號來說，由於在不同的時間區段有不同的週期與振幅大小，因此一段非固定式的訊號所具有的週期與振幅等參數數目，都比固定式的訊號來得多。雖然語音是非固定式的訊號。這樣一來，我們就可以用處理固定式的訊號的方式來對不固定式的訊號來作處理。再語音處理上，每一時間區段是一個短時距（short time）或被稱為一個音框（frame）。　　語音訊號還有一項重要的特性：在不同時間，雖然說的是同一句話或一個音，但其波形卻不儘相同，也可以說語音是一種隨時間而變的動態性訊號，做語音辨識就是要從這些動態的訊號中，找出規律性，一旦找到規律性之後，訊號在怎麼隨時間變化，大抵都能指出它們的特性所在，進而把它們辨識出來，這種規律性在語音辨識上稱為特徵參數，也就是能夠代表訊號特性的參數。語音辨識的基本原理就是以這些特徵參數做基礎。語音在空氣中是以波的形式來傳遞，我們將以這種波的訊號稱為類比訊號（Analog signal）。電腦無法直接處理類比訊號，因為在電腦中，所有的資料都是以0或1表示。訊號以數值大小表示時稱為數位訊號（Digital Signal）。如果要用電腦來處理類比訊號，就必須將類比訊號轉為數位訊號才行。　　語音訊號在進入電腦前是一種連續性的訊號，所謂的連續性號是指時間上的連續，透過麥克風我們把聲音傳到電腦裡面，這中間的過程稱為數位化。　　原來連續性的訊號，經過數位化的處理後，變成一種不連續的訊號，這個訊號只在某些固定的時間刻度上有值，這些刻度稱為取樣點，取樣點上的振幅大小稱之為取樣值，兩個取樣點之間的時間間隔稱之為取樣週期，取樣週期的倒數稱為取樣頻率。取樣頻率的另一種說法是，在一秒中內要對原始訊號做幾次取樣，取樣頻率的大小可以由使用者自定，但是一般來說要符合取樣定理（Sampling Theorem）。就是取樣頻率需大於兩倍取樣頻率，否則會造成取樣失真（Aliasing），一旦取樣失真發生，所得到的聲音取樣值便不能代表原來的訊號。因此在對語音訊號作取樣時，由於語音的最高頻率不會超過 4000Hz，所以取樣頻率定在 8000Hz以上，就保證取樣失真不會發生。　　取樣頻率的設定對數位化的聲音有很大的影響，在要求高品質的場合，取樣頻率會高出兩倍原是頻率許多。然而像我們將介紹的語音辨識，只要訊號不失真就可以了。　　在每個取樣點上，訊號的振幅大小也被數位化，在麥克風上的訊號是一種細微交流電壓的型態，譬如說：原始訊號的振幅在-50mv ~50mv之間變動，數位化的過程就是把電壓轉換成數字大小，如以-128代表-50mv，127代表50mv，-128~127中間的數值代表電壓大小，則以線性（Linear）或是以非線性（Non-Linear）的方式遞增。何謂語音辨識　　語音辨識最主要的目的是希望電腦聽懂人類說話的聲音，進而命令電腦執行相對應的工作。當聲音藉由類比到數位的轉換裝置輸入電腦內部，並以數值方式儲存後，語音辨識程式便開始已事先儲存好的聲音樣本與輸入的測試聲音樣本進行比對工作。比對完成後點腦集輸入一個它認為最“像”的聲音樣本序號，我們就可以知道使用者剛剛唸進去的聲音代表何意，進而命令電腦做事。　　因此設計一個語音辨識程式，至少又有兩方面的知識：瞭解如何把外界的聲音訊號抓到電腦內部處理：　這一部份和語音使用者的聲音輸入/輸出（I/O）硬體裝置有關，不同的裝置會使這部分的處理程式也不相同，然而處理聲音I/O的基本原理卻差不多。瞭解聲音比對原理：　聲音比對原理一直是研究語音辨識的專家學者們急於尋求突破的地方，截至目前為止，已有不下上千篇的相關論文在尋找這方面的解答。　　所謂的語音辨識（Speech Recognition）有別於語者辨識（Speech Identification），語音辨識著重的是聲音代表的意義，而語者辨識是要辨識說話者的身份，兩者各不同的應用範圍，前者可應用於將聲音轉成文字的場合，而後者可用在門禁系統等。語音辨識的原理宜接相異度比較法誠如前面所說的，如果以10KHz的取樣頻率對聲