一种适用于大量连续语料的语音文句校准方法-Associationfor.PDFVIP

下载本文档

5
0
约2.06万字
约 10页
2018-03-29 发布于天津
举报
版权申诉

一种适用于大量连续语料的语音文句校准方法-Associationfor.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种适用于大量连续语料的语音文句校准方法-Associationfor

一種適用於大量連續語料的語音文句校準方法簡世杰張信常工業技術研究院資訊與通訊工業研究所新竹縣竹東鎮中興路四段195號51館 {ShihChiehChien and Piosn}@.tw 摘要為了使維特比演算法（Viterbi Algorithm）能適用於大量連續語料的語音文句校準，以部分語音文句校準循序進行處裡，是一種較有效率的作法，但如何確保整體搜尋空間的最佳路徑落在部份語音和部分文句所形成的部份搜尋空間集合，以及，如何決定落在部份搜尋空間裡的部分最佳路徑，並且該部分最佳路徑與整體搜尋空間的最佳路徑是重疊的，是實施的關鍵。因此，本文提出一種可靠路徑估測方法估測存在於部分搜尋空間裡的可靠路徑，並藉由可靠路徑估測結果調整部分搜尋空間，以防止最佳路徑可能超出部分搜尋空間的情況。實驗顯示本文方法不但可適用在一般無背景噪音的大量連續語料校準，在高 SNR 背景音樂的情況下也能獲得不錯的結果。 1.前言在語音信號處理裡，語音文句校準是常見的前處理工作，其目的在取得語音信號與文句內容之間的對應關係，以進行像是語音辨識的聲學模型訓練或是作為語音合成的合成單元使用。一般而言，這類應用所使用的語料通常都是事先依照需要設計的，並且也常以人工方式進行預處理，以使這些經過設計處理過的語料容易以傳統的維特比演算法（Viterbi Algorithm）進行語音文句校準。不過，對於常見的教學錄音帶或是光碟音軌，這些動輒 5分鐘以上的連續語料以傳統的維特比演算法來進行語音文句校準，記憶空間和運算時間的耗費是相當大的，並且，當連續語料超過一定長度時，傳統的維特比演算法也就不見得能夠適用了。因此，過去對於這種大量連續語料的處理，通常我們會先採用人工分段，再使用傳統的維特比方法進行細部的校準，但這樣也僅能適用在資料量不大的時候，當資料量大時，譬如要對過去傳統的音訊素材全面的進行數位化和再利用，這時候提供一種適用於大量連續語料的語音文句校準方法，取代人工作業，就是一件相當重要的工作了。對於大量連續語料的語音文句校準，過去的文獻是設法於連續語料裡取得可信賴的錨點（anchor）以分割語料，將大量連續語料分割成較小的語音片段，並再次取得存在於語音片段裡的錨點，直到這些語音片段得以使用傳統方法進行處理為止[2,3]。其中，幾個重要的模組是這種錨點偵測(Anchor Detection)做法所必備的，包括一個語音辨識器以辨識出可能的文句、一個動態規劃（Dynamic Prog ramming）模組比對識別文句與原始文句以取得一致性的文句、以及一個錨點偵測模組配合一些準則自一致的文句內容裡選出錨點。其中，語音識別器的識別能力和錨點的選擇是影響錨點偵測效果的關鍵所在。對於增強語音識別能力，事前可使用一個文句剖析器依據給定的文句設定識別器使用的識別詞彙和訓練語言模型，以縮小識別範圍和限定前後文接續關係來提昇識別效果。為使錨點選擇具有可靠性，識別文句與原始文句匹配長度達到一定門檻值的錨點選擇準則是常見的作法。然而，當錨點與錨點間的的語音長度小於文句預估的長度；譬如，語音的音框數小於文句的狀態數，即無法順利完成這些錨點之間的語音文句校準。再者，當重複文句出現，識別文句與原始文句匹配就很容易出現問題，這種情形又特別容易出現在語言教學類型的語料裡，也是以這種錨點偵測方式不易克服的地方。另外一個問題是，不同音訊素材的背景環境或收錄所使用的設備可能是不相同的，在這樣的狀況下，相當於是要以固定訓練環境的聲學模型對不同環境的語料進行語音識別，搭配模型調適或者強健式語音識別技術就是錨點偵測做法所要考慮的，其複雜度和難度可見一斑。對於已知文句內容的情況下，採用傳統的維特比演算法進行語音文句校準，即便輸入的語音環境可能不同於當時聲學模型的訓練環境，其校準結果通常都仍能具有相當高的準確性。然而，如前所