- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
科整合型告新世代自音辨技之研究第二段主持人王小川研究之背景及目的研究之背景及目的自音辨技的展已超四十多年多的做法是一言展一套音辨系但不一定需要懂得言只要言收集多的音文本料由料生模型言模型就可以建一自音辨系常用的藏式可夫模型人工神路就是做法而且些演算方法都有公的可以使用以料基的做法可以是用了一忽略知的模型能再改之有限回音言的知建立一以知基加上料的模式音性音事件著手自音辨推向下一新世代根美治理工院李教授的建我於年提出一整合型新世代自音辨技之研究建立共享平台行合作研究所的系架如下第一段整合型所做的研究
SPEECH LAB NTHU EE NGASR-II * 國科會整合型計畫 總計畫報告 新世代自動語音辨識技術之研究 — 第二階段 A Study on the Next Generation Automatic Speech Recognition -- Phase 2 主持人 王小川 2011//7/12 NGASR-II * 研究計劃之背景及目的 研究計劃之背景及目的 NGASR-II * 自動語音辨識(automatic speech recognition, ASR)技術的發展已經超過四十多年,多數的做法是針對一個語言發展一套語音辨識系統,但不一定需要懂得該語言,只要對這個語言收集夠多的語音與文本資料,由資料產生聲學模型與語言模型,就可以建構一個自動語音辨識系統。常用的隱藏式馬可夫模型(hidden Markov model)與人工神經網路(artificial neural network),就是這種做法,而且這些演算方法都有公開的軟體可以使用。 以資料庫為基礎的(corpus-based)做法,可以說是用了一個忽略知識的模型(knowledge- ignorant modeling),能再改進之處有限。 應該回頭將語音學與語言學的知識帶進來,建立一個以知識為基礎(knowledge-based)加上資料驅動(data-driven)的模式,從語音屬性與語音事件偵測著手,將自動語音辨認推向下一個新世代。 NGASR-II * 根據美國喬治亞理工學院李錦輝教授的建議,我們於2005年提出一個整合型計畫「新世代自動語音辨識技術之研究」,建立共享平台,進行合作研究,所規劃的系統架構如下; 第一階段整合型計畫所做的研究,重點在聲學模型與語音特徵參數的研究,以及語料庫的標音與建立。 NGASR-II * 2008年提出後續的三年整合型計畫「新世代自動語音辨識技術之研究-第二階段」,擴大參與人員與研究範圍,所規劃的語音辨識系統架構如圖二所示; NGASR-II * 研究方法與進行步驟 研究方法與進行步驟 NGASR-II * 整個系統架構是由上而下的規劃,各子計畫分別對於前述之研究項目作分工的研究,將來各個子計畫所完成的知識庫、語料庫、模型、以及工具,將落實在共享平台上,開放大家使用。 NGASR-II * 自動標音及語音資料庫確認 (王新民) --- 功能方塊(三) 本子計畫將進行的主要工作包括: (1)語音資料庫標記。 (2)語音特徵係數測試。 (3)音訊分段(Audio Segmentation)技術開發。 (4)自動音素分段(Automatic Phoneme Segmentation)技術開發。 (5)分類器及特徵選取(Feature Selection)技術開發。 (6)自動限制網路抽取技術開發。 NGASR-II * 語音屬性與事件之辨識模型研究 (王小川) --- 功能方塊(二) 本子計畫預定以機率圖模型的架構,針對以音框單位與跨音框單位的語音參數,建構其合適的辨識模型。研究的重點包括; (1) 機率圖模型的基本原理探討。 (2) 語音屬性與語音事件序列的機率圖模型描述方式。 (3) 適合語音辨識之機率圖模型及其強健性設計。 (4) 語音辨識單位的探討及機率圖模型在詞彙辨識的應用。 NGASR-II * 語音事件整合、證據確認,與後處理 (李琳山) --- 功能方塊(二)、功能方塊(四) 本子計畫的核心工作是功能方塊(二)與功能方塊(四)。 功能方塊(二)將包含三個層次; (1)同一語音事件之不同訊息來源之整合及進一步確認。 (2)將不同語音事件之知識整合成一較高層次的事件及進一步確認。 (3)將不同時間上的語音事件整合成一較長時間的假設及進一步確認。 功能方塊(四)的工作包括;類似維特比解碼(Viterbi Decoding)的程序,及若干可用的模型,例如隱藏式馬可夫模型(Hidden Markov Model)、圖式模型(Graphical Model)、條件隨機域(Conditional Random Field)、最高熵模型(Maximum Entropy Model)、決策樹(Decision Tree)、支撐向量機(Support Vector Machine)等。 NGASR-II * 韻律屬性與語音事件偵測之研究 (鄭秋豫) --- 功能方塊(一)、功能方塊(五) 本子計畫擬在總計畫加入韻律屬性與語音事件的偵測,即語音信號中的超音段成分,並階段性的語音段屬性整合,以建立語音辨識模型。 研究課題包括以下三個方向: (1)偵測語流韻律邊界特性,以提供辨識韻律單位所需資訊。 (2)比較自發性口語料和朗讀語料的語篇規劃範圍與韻律邊界聲學參數區辨力。 (3
文档评论(0)