基于音段式LMR对映之语音转换方法的改进-Associationfor.PDFVIP

基于音段式LMR对映之语音转换方法的改进-Associationfor.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Proceedings of the Twenty-Fifth Conference on Computational Linguistics and Speech Processing (ROCLING 2013) 基於音段式 LMR 對映之語音轉換方法的改進 Improving of Segmental LMR-Mapping Based Voice Conversion Methods 古鴻炎 張家維 Hung-Yan Gu Jia-Wei Chang 國立臺灣科技大學 資訊工程系 Department of Computer Science and Information Engineering National Taiwan University of Science and Technology e-mail: {guhy, m9815064}@.tw 摘要 基於線性多變量迴歸(linear multivariate regression, LMR)頻譜對映之語音轉換方法,轉換 出的頻譜包絡仍然存在過度平滑(over smoothing)的現象,因此本論文研究在音段式 LMR 頻譜對映之前加入直方圖等化(HEQ)的處理,並且在 LMR 頻譜對映之後加入目標 音框挑選的處理,希望藉以提升轉換出語音的品質。在此,直方圖等化處理包含兩個步 驟,首先是把離散倒頻譜係數(DCC)轉換成主成分分析(PCA)係數,接者把 PCA 係數轉 換成累積密度函數(CDF)係數;目標音框挑選則是依據一個音框的音段類別編號、及 LMR 對映出的 DCC 向量,到目標語者相同音段類別所收集的音框群中,去搜尋出距離 較小的目標語者 DCC 向量、並且取代原先對映出的 DCC 向量,如此以避免發生頻譜 包絡之過度平滑現象。對於直方圖等化與目標音框挑選,我們以外部(未參加模型參數 訓練)平行語料來量測語音轉換之平均 DCC 誤差,當加入直方圖等化後會使誤差值變大 一些,而當加入目標音框挑選後則會使誤差值變大得更多。不過,VR (variance ratio)值 量測及主觀聽測的結果卻是相反的方向,亦即直方圖等化可使語音品質提升一些,而目 標音框挑選則可使語音品質獲得更為明顯的提升。這種誤差距離值和語音品質聽測之間 的不一致性,我們設法去尋找了它的原因,所找到的一個理由在內文裡說明。 關鍵詞:語音轉換,線性多變量迴歸,直方圖等化,目標音框挑選,離散倒頻譜係數 一、緒論 把一個來源語者(source speaker)的語音轉換成另一個目標語者(target speaker)的語音,這 種處理稱為語音轉換(voice conversion)[1, 2, 3] ,語音轉換可應用於銜接語音合成處理, 以獲得多樣性的合成語音音色。去年我們曾嘗試以線性多變量迴歸(linear multivariate regression, LMR)來建構一種頻譜對映(mapping)的機制[4] ,然後用於作語音轉換,希望 藉以改進傳統上基於高斯混合模型(Gaussian mixture model, GMM)之頻譜對映機制[3] 常遇到的一個問題,就是轉換出的頻譜包絡(spectral envelope)會發生過度平滑(over smoothing)的現象。我們經由實驗發現,音段式(segmental) LMR 頻譜對映機制不僅在平 均轉換誤差上可以比傳統 GMM 頻譜對映機制獲得一些改進,並且轉換出語音的音質也 90 Proceedings of the Twenty-Fifth Conference on Computational Linguistics and Speech Processing (ROCLING 2013) 比傳統 GMM 對映的稍好一些。不過,整體而言音段式 LMR 對映機制所

您可能关注的文档

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档