网站大量收购独家精品文档,联系QQ:2885784924

基于ANN之频谱演进模型及其于国语语音合成之应用-ACLAnthology.PDF

基于ANN之频谱演进模型及其于国语语音合成之应用-ACLAnthology.PDF

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于ANN之频谱演进模型及其于国语语音合成之应用-ACLAnthology

基於ANN 之頻譜演進模型及其於國語語音合成之應用 An ANN based Spectrum-progression Model and Its Application to Mandarin Speech Synthesis 古鴻炎 吳昌益 Hung-Yan Gu and Chang-Yi Wu 國立台灣科技大學資訊工程系 Department of Computer Science and Information Engineering National Taiwan University of Science and Technology e-mail: guhy@.tw 摘要 考量合成語音的流暢性不佳的問題,本文提出以動態時間校正(DTW)來匹配目標( 句 子發音)音節與參考(單獨發音)音節之間的頻演(頻譜演進)路徑 ,再將頻演路徑轉換 成固定維度的頻演參數 ,用以去訓練頻演參數類神經網路(ANN)模型 。之後 ,將文 句分析、頻演參數 、韻律參數 、和信號合成模組的程式作整合 ,而成為可實際運轉 的系統。當把此系統合成出的語音 ,拿去作聽測評估 ,所得到的平均分數顯示 ,頻 演參數ANN 模型的確可明顯地改進合成語音的流暢性 。 關鍵詞: 頻譜演進, 流暢性, ANN, DTW, 語音合成 Keywords: spectrum progression, fluency, ANN, DTW, speech synthesis 一 、前言 由前人的研究成果可知 ,要合成出自然 、流暢的國語語音 ,韻律(prosody)參數的塑 模(modeling) 及數值產生扮演重要的角色[1,2,3] 。一般被歸屬為韻律參數的語音特 性 ,包括:音節的基週軌跡(pitch-contour) 、時長(duration) 、音強(amplitude) 、及音 節前停頓(pause)等。我們依據過去的研究經驗發現,當採取model based 的研究方向 時 ,也就是韻律參數產生和信號波形合成分開處理的作法 ,就算是我們的韻律模型 已經可以產生出相當自然的韻律參數值 ,但是合成出的語音信號,聽起來就是不像 人講的那麼順暢。所以會這樣地具有不錯的自然度(naturalness) 而欠缺流暢度 (fluency) ,我們先前檢討時 ,認為是因為相鄰的合成單元(音節) 串接時,邊界上的共 振峰軌跡(formant trace)沒有平順轉移所造成 ,因此我們便研究了一種解決共振峰軌 跡平順轉移問題的作法[4] 。使用此作法後 ,由聆聽合成的語音發現 ,流暢性是可以 獲得一些改進 ,但是距離人講話的流暢性,仍然存在著明顯的差距。 最近回顧一些文獻後發現 ,我們所關心的流暢性不足的問題 ,其實已經有其他 研究者注意到了[5,6,7] ,他們提出的一種作法是 ,以HMM(hidden Markov Model)模 型的數個狀態 ,來切割一個音節的時長成為數個時間片斷 ,再分別去掌握各片段上 的頻譜特性( 例如頻譜包絡, spectrum envelope, 的形狀) ,並且以特定的狀態駐留 (state staying)機率分佈來掌握在各個狀態上所應停留的時間長度。這樣的作法 ,以 我們的觀點來看 ,就是在於作更細緻的規劃 ,把一個音節的時長以某一種非均勻(或 非線性)的方法作切割,而讓不同的狀態分配到不等的時間長度 ,造成不同的頻譜包 絡形狀會佔據不同長度的時長,以便更細緻地模仿真人發音(articulation)時的頻譜隨 著時間變化的關係 。 前述頻譜( 包絡形狀) 隨著時間演變的關係 ,在本文裡簡稱之為頻譜演進 (spectrum progression) ,而頻譜演進路徑(簡稱為頻演路徑)指的是 ,當把欲合成的音 節放在橫軸上 ,而把相同拼音的原始錄音音節放在縱軸上 ,此時橫軸上各時間點所 應對應的縱軸時間點 ,需要一條曲線來描述此對映(mapping)關係 ,一個例子如圖 1 所示 ,這樣的對映曲線就是本文所謂的頻演路徑 。過去很多的國語語音合成系統,

您可能关注的文档

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档