基於发音知识以建构频谱HMM之国语语音合成方法-Associationfor.PDF

基於发音知识以建构频谱HMM之国语语音合成方法-Associationfor.PDF

基於发音知识以建构频谱HMM之国语语音合成方法-Associationfor

The 2014 Conference on Computational Linguistics and Speech Processing ROCLING 2014, pp. 78-88 © The Association for Computational Linguistics and Chinese Language Processing 基於發音知識以建構頻譜HMM 之國語語音合成方法 A Mandarin Speech Synthesis Method Using Articulation-knowledge Based Spectral HMM Structure ∗ 古鴻炎 、賴名彥* 、洪尉翔* 、陳彥樺* Hung-Yan Gu, Ming-Yen Lai, Wei-Siang Hong, and Yan-Hua Chen 摘要 在有限語料的情況下,本論文提出一種HMM 的結構設計,來掌握各個語音單 元之文脈相依的頻譜特性,以便改進合成語音的流暢度。此外,在決策樹之文 脈分群方法之外,我們依據音素的發音知識,來作文脈分群而大幅降低文脈組 合數量。為了評估所提出的 HMM 結構,我們使用三種不同的 HMM 結構方 式去建造對應的國語語音合成系統,以作相互的比較。在這些系統裡,使用的 韻律參數值是一樣的,都是使用之前研究的ANN 模組來產生;但是頻譜係數 則是使用各自的HMM 模型來產生;至於信號波形的合成,則都是使用之前研 究的基於諧波加雜音模型(HNM)的信號合成模組。聽測實驗的結果顯示,使用 本論文提出的HMM 結構所合成出的語音,比用其它HMM 結構所合成的明顯 地更為流暢;此外,依據錄音語句與合成語句之間的平均頻譜距離的量測結 果,也顯示本論文的HMM 結構,比其它HMM 結構更能夠降低頻譜距離。 關鍵詞: 語音合成、HMM 結構、發音知識、頻譜流暢度、離散倒頻譜係數 Abstract In this paper, a new HMM structure is proposed to work with a limited training corpus in order to obtain improved synthetic-speech fluency. Spectral fluency is improved because this HMM structure can model the context-dependent spectral characteristics of a speech unit. In addition, instead of using a decision tree to cluster contexts, the knowledge of phoneme articulation is based to cluster contexts and reduce the enormous quantity of context combinations. To evaluate the proposed HMM structure, we construct three Mandarin speech synthesis systems each uses one different HMM structure for comparisons. In these systems, the prosodic parameters are all generated with

文档评论(0)

1亿VIP精品文档

相关文档