- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Proceedings of the Twenty-Fifth Conference on Computational Linguistics and Speech Processing (ROCLING 2013)
基於音段式 LMR 對映之語音轉換方法的改進
Improving of Segmental LMR-Mapping Based Voice Conversion Methods
古鴻炎 張家維
Hung-Yan Gu Jia-Wei Chang
國立臺灣科技大學 資訊工程系
Department of Computer Science and Information Engineering
National Taiwan University of Science and Technology
e-mail: {guhy, m9815064}@.tw
摘要
基於線性多變量迴歸(linear multivariate regression, LMR)頻譜對映之語音轉換方法,轉換
出的頻譜包絡仍然存在過度平滑(over smoothing)的現象,因此本論文研究在音段式
LMR 頻譜對映之前加入直方圖等化(HEQ)的處理,並且在 LMR 頻譜對映之後加入目標
音框挑選的處理,希望藉以提升轉換出語音的品質。在此,直方圖等化處理包含兩個步
驟,首先是把離散倒頻譜係數(DCC)轉換成主成分分析(PCA)係數,接者把 PCA 係數轉
換成累積密度函數(CDF)係數;目標音框挑選則是依據一個音框的音段類別編號、及
LMR 對映出的 DCC 向量,到目標語者相同音段類別所收集的音框群中,去搜尋出距離
較小的目標語者 DCC 向量、並且取代原先對映出的 DCC 向量,如此以避免發生頻譜
包絡之過度平滑現象。對於直方圖等化與目標音框挑選,我們以外部(未參加模型參數
訓練)平行語料來量測語音轉換之平均 DCC 誤差,當加入直方圖等化後會使誤差值變大
一些,而當加入目標音框挑選後則會使誤差值變大得更多。不過,VR (variance ratio)值
量測及主觀聽測的結果卻是相反的方向,亦即直方圖等化可使語音品質提升一些,而目
標音框挑選則可使語音品質獲得更為明顯的提升。這種誤差距離值和語音品質聽測之間
的不一致性,我們設法去尋找了它的原因,所找到的一個理由在內文裡說明。
關鍵詞:語音轉換,線性多變量迴歸,直方圖等化,目標音框挑選,離散倒頻譜係數
一、緒論
把一個來源語者(source speaker)的語音轉換成另一個目標語者(target speaker)的語音,這
種處理稱為語音轉換(voice conversion)[1, 2, 3] ,語音轉換可應用於銜接語音合成處理,
以獲得多樣性的合成語音音色。去年我們曾嘗試以線性多變量迴歸(linear multivariate
regression, LMR)來建構一種頻譜對映(mapping)的機制[4] ,然後用於作語音轉換,希望
藉以改進傳統上基於高斯混合模型(Gaussian mixture model, GMM)之頻譜對映機制[3]
常遇到的一個問題,就是轉換出的頻譜包絡(spectral envelope)會發生過度平滑(over
smoothing)的現象。我們經由實驗發現,音段式(segmental) LMR 頻譜對映機制不僅在平
均轉換誤差上可以比傳統 GMM 頻譜對映機制獲得一些改進,並且轉換出語音的音質也
90
Proceedings of the Twenty-Fifth Conference on Computational Linguistics and Speech Processing (ROCLING 2013)
比傳統 GMM 對映的稍好一些。不過,整體而言音段式 LMR 對映機制所
您可能关注的文档
- 基于社会网络分析的全球自然保护地治理模式研究-生态学报.PDF
- 基于等效面积DruckerPrager模型探讨边坡破坏机制-路基工程.PDF
- 基于类别随机化的随机森林算法-计算机科学.PDF
- 基于系统动力学模型和元胞自动机模型的土地利用情景模型研究View.PDF
- 基于粒子群优化的自然电场数据反演-中南大学学报.PDF
- 基于线粒体控制区D-loop序列的珠江赤眼鳟遗传多样性与遗传分化.DOC
- 基于结构方程模型的我国体育赛事志愿者模型构建-北京体育大学学报.PDF
- 基于结构方程模型的基坑工程事故致因分析二-西安科技大学学报.PDF
- 基于统计差分LPP的多模态间歇过程故障检测-计算机应用研究.PDF
- 基于结构方程模型的蒙古包居住满意度影响因素研究-科技促进发展.PDF
文档评论(0)