应用不定长度特徵之条件随机域於口语不流畅语流修正Disfluency.PDFVIP

下载本文档

3
0
约3.98万字
约 15页
2017-12-15 发布于天津
举报
版权申诉

应用不定长度特徵之条件随机域於口语不流畅语流修正Disfluency.PDF

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

应用不定长度特徵之条件随机域於口语不流畅语流修正Disfluency.PDF

應用不定長度特徵之條件隨機域於口語不流暢語流修正 Disfluency Correction of Spontaneous Speech using Conditional Random Fields with Variable Length Features 葉瑞峰 2 1 1 、吳宗憲、吳維彥 1Dept. of Computer Science and Information Engineering, National Cheng-Kung University, Tainan, Taiwan 2Dept. of Computer Science and Information Engineering, Far East University, Tainan County, Taiwan 摘要針對口語化語音中之不流暢語流(disfluency)現象，本文提出以不定長度特徵之條件隨機域。利用狀態轉移特徵函數、觀測特徵函數以及相對應之參數，針對不流暢語流進行修正。其中觀測特徵函數可整合多種知識來源，包括前後文相關特徵、不流暢相關特徵以及圖樣符合相關特徵。在狀態方面我們使用可變動長度單位，包括詞、字元串集 (chunk) 以及句子三種不同狀態。在評估上，則使用現代漢語口語對話語料庫(MCDC) 做為訓練以及測試語料。其中被修正詞 (editing word)錯誤率為 17.3% ，相對於DF-gram 、HMM 、最大熵以及 N-gram 加校正之混合模型的方法分別降低了 11.7% 、8.7% 、8%以及3.9% 。在給定中斷點的情況下，被修正詞錯誤率為 6.1% 。實驗證明所提之模型優於其他方法，並可有效偵測並修正口述語言中之不流暢語流。 1. 緒論要應用語音技術於人機介面上，語音辨識則為最重要且核心之技術之一。近十年來，語音辨認技術已臻於成熟且蓬勃發展。目前的語音辨認系統對於朗讀的語音輸入辨認效果極佳，然而要實際應用，必須考慮口語化語音[1] 。而口語化語音常會伴隨著非正規化(ill-formed) 以及不流暢語流 (disfluency) ，這些現象會造成目前辨識系統的錯誤率大幅度提高，以至於無法應用於日常生活 [2] 。而參雜著不流暢語流之辨識後文字，也會使得使用者極不容易閱讀，對使用者造成困擾 [3] 。編輯不流暢語流結構共可區分為以下四個部份如圖一所示。 L LL LL LL 圖一編輯不流暢語流之結構編輯不流暢語流包括三種型別：重複(Repetition) 、修正(Repair) 和重開始(Restart) ，其定義如下。重複即語者重複語句的某個部份，也就是可刪除區域與修正區域的語句重複。修正即語者將語句的某個部份做修正。也就是可刪除區域將取代修正區域並改變它的意思。重開始語者將未完成: 的語句中斷並重新開始另一句。也就是中斷點前面的部分全都是可刪除區域。相關的研究在國外方面， ISCI 以及 SRI 等國際研究中心利用語言模型以及韻律模型偵測不流暢語流 [4] 、結合基於詞和詞性的語言模型解決重複[5]和使用隱藏事件語言模型直接對不流暢語流進行統計式分析以及利用不流暢語流語言模型(DF-gram)來預測是否出現不流暢現象[6]以及使用最大熵模型以及隱藏馬可夫模型修正不流暢語流 [7] 。John Bear 應用不同知識來源來針對不流暢語流進行偵測及修正 [8] ，Anand Venkataraman 使用人工訂定之規則來判斷不流暢語流 [9] 、 Matthias Honal 利用噪音頻道(Noisy Channel)的觀念，運用不同特徵訓練出統計模型並以線性組合來修正之 [10] 。Charniak and Johnson 建立ㄧ基於詞性特徵之分類器來預測可被刪除區域[11] 。 Nakatani and Hirschberg 利用聲學、音韻學以及語言特徵建立ㄧ決策樹模型來偵測重複 [12] 。 Snov