- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于ANN之频谱演进模型及其于国语语音合成之应用-ACLAnthology
基於ANN 之頻譜演進模型及其於國語語音合成之應用
An ANN based Spectrum-progression Model and Its Application to
Mandarin Speech Synthesis
古鴻炎 吳昌益
Hung-Yan Gu and Chang-Yi Wu
國立台灣科技大學資訊工程系
Department of Computer Science and Information Engineering
National Taiwan University of Science and Technology
e-mail: guhy@.tw
摘要
考量合成語音的流暢性不佳的問題,本文提出以動態時間校正(DTW)來匹配目標( 句
子發音)音節與參考(單獨發音)音節之間的頻演(頻譜演進)路徑 ,再將頻演路徑轉換
成固定維度的頻演參數 ,用以去訓練頻演參數類神經網路(ANN)模型 。之後 ,將文
句分析、頻演參數 、韻律參數 、和信號合成模組的程式作整合 ,而成為可實際運轉
的系統。當把此系統合成出的語音 ,拿去作聽測評估 ,所得到的平均分數顯示 ,頻
演參數ANN 模型的確可明顯地改進合成語音的流暢性 。
關鍵詞: 頻譜演進, 流暢性, ANN, DTW, 語音合成
Keywords: spectrum progression, fluency, ANN, DTW, speech synthesis
一 、前言
由前人的研究成果可知 ,要合成出自然 、流暢的國語語音 ,韻律(prosody)參數的塑
模(modeling) 及數值產生扮演重要的角色[1,2,3] 。一般被歸屬為韻律參數的語音特
性 ,包括:音節的基週軌跡(pitch-contour) 、時長(duration) 、音強(amplitude) 、及音
節前停頓(pause)等。我們依據過去的研究經驗發現,當採取model based 的研究方向
時 ,也就是韻律參數產生和信號波形合成分開處理的作法 ,就算是我們的韻律模型
已經可以產生出相當自然的韻律參數值 ,但是合成出的語音信號,聽起來就是不像
人講的那麼順暢。所以會這樣地具有不錯的自然度(naturalness) 而欠缺流暢度
(fluency) ,我們先前檢討時 ,認為是因為相鄰的合成單元(音節) 串接時,邊界上的共
振峰軌跡(formant trace)沒有平順轉移所造成 ,因此我們便研究了一種解決共振峰軌
跡平順轉移問題的作法[4] 。使用此作法後 ,由聆聽合成的語音發現 ,流暢性是可以
獲得一些改進 ,但是距離人講話的流暢性,仍然存在著明顯的差距。
最近回顧一些文獻後發現 ,我們所關心的流暢性不足的問題 ,其實已經有其他
研究者注意到了[5,6,7] ,他們提出的一種作法是 ,以HMM(hidden Markov Model)模
型的數個狀態 ,來切割一個音節的時長成為數個時間片斷 ,再分別去掌握各片段上
的頻譜特性( 例如頻譜包絡, spectrum envelope, 的形狀) ,並且以特定的狀態駐留
(state staying)機率分佈來掌握在各個狀態上所應停留的時間長度。這樣的作法 ,以
我們的觀點來看 ,就是在於作更細緻的規劃 ,把一個音節的時長以某一種非均勻(或
非線性)的方法作切割,而讓不同的狀態分配到不等的時間長度 ,造成不同的頻譜包
絡形狀會佔據不同長度的時長,以便更細緻地模仿真人發音(articulation)時的頻譜隨
著時間變化的關係 。
前述頻譜( 包絡形狀) 隨著時間演變的關係 ,在本文裡簡稱之為頻譜演進
(spectrum progression) ,而頻譜演進路徑(簡稱為頻演路徑)指的是 ,當把欲合成的音
節放在橫軸上 ,而把相同拼音的原始錄音音節放在縱軸上 ,此時橫軸上各時間點所
應對應的縱軸時間點 ,需要一條曲線來描述此對映(mapping)關係 ,一個例子如圖 1
所示 ,這樣的對映曲線就是本文所謂的頻演路徑 。過去很多的國語語音合成系統,
您可能关注的文档
- 业界合作合约书-昆山科技大学.DOC
- 云南蒙自2015届中考语文下学期一模试题-魏老师教育.DOC
- 仪器设备家具登记填写规范-东北农业大学国有资产管理处.DOC
- 四川航空股份有限公司招收飞行学生简章-成都信息工程大学.DOC
- 团员青年们.DOC
- 围绕最后一片叶子.PPT
- 国中-云林立土库国民中学.DOC
- 国家标准草酸钴编制说明-中国有色金属标准质量信息网.DOC
- 国家标本资源共享平台国家标本资源共享平台建设研讨会第二.PDF
- 国家电投集团广西电力有限公司招聘高校毕业生应聘登记表.DOC
- 《GB/T 4340.2-2025金属材料 维氏硬度试验 第2部分:硬度计的检验与校准》.pdf
- GB/T 4340.2-2025金属材料 维氏硬度试验 第2部分:硬度计的检验与校准.pdf
- 中国国家标准 GB/T 4340.3-2025金属材料 维氏硬度试验 第3部分:标准硬度块的标定.pdf
- 《GB/T 4340.3-2025金属材料 维氏硬度试验 第3部分:标准硬度块的标定》.pdf
- GB/T 4340.3-2025金属材料 维氏硬度试验 第3部分:标准硬度块的标定.pdf
- 《GB/T 45284.1-2025信息技术 可扩展的生物特征识别数据交换格式 第1部分:框架》.pdf
- 中国国家标准 GB/T 45284.1-2025信息技术 可扩展的生物特征识别数据交换格式 第1部分:框架.pdf
- GB/T 45284.1-2025信息技术 可扩展的生物特征识别数据交换格式 第1部分:框架.pdf
- 《GB/T 45284.5-2025信息技术 可扩展的生物特征识别数据交换格式 第5部分:人脸图像数据》.pdf
- 中国国家标准 GB/T 45284.5-2025信息技术 可扩展的生物特征识别数据交换格式 第5部分:人脸图像数据.pdf
最近下载
- 软件设计服务合同.docx
- 工程制图与AutoCAD习题集(第2版)习题答案.pdf
- 第三单元 走向整体的世界 单元测试 (含解析)---2024-2025学年统编版(2019)高中历史必修中外历史纲要下册.pdf VIP
- 超级猩猩健身房品牌手册.pptx VIP
- 消费品以旧换新实施的创新路径与案例.docx VIP
- 智算中心建设项目可行性研究报告.docx
- 消费品以旧换新策略的实施案例分析与借鉴.docx VIP
- 基础护理学课件 14.第十四章 静脉输液与输血.ppt
- 电动港机装卸机械操作工(门机)技能测试题含答案.docx VIP
- 考点21:学会拓展延伸-备战2024年中考语文现代文阅读高频考点精讲课件(全国通用).pptx VIP
文档评论(0)