以线性多变量回归来对映分段后音框之语音转换方法a voice - 古鸿炎.pdfVIP

  • 7
  • 0
  • 约2.26万字
  • 约 12页
  • 2017-09-02 发布于天津
  • 举报

以线性多变量回归来对映分段后音框之语音转换方法a voice - 古鸿炎.pdf

以线性多变量回归来对映分段后音框之语音转换方法a voice - 古鸿炎

以線性多變量迴歸來對映分段後音框之語音轉換方法 A Voice Conversion Method Mapping Segmented Frames with Linear Multivariate Regression 古鴻炎 張家維 王讚緯 Hung-Yan Gu Jia-Wei Chang Zan-Wei Wang 國立臺灣科技大學 資訊工程系 Department of Computer Science and Information Engineering National Taiwan University of Science and Technology e-mail: {guhy, m9815064, @.tw 摘要 基於 GMM 對映之語音轉換方法常遇到的一個問題是,轉換出的頻譜包絡會發生過於平 滑 (over smoothing) 的現象,因此本論文嘗試以線性多變量迴歸 (linear multivariate regression, LMR)來建構另一種頻譜對映的方法,希望能夠改進頻譜過平滑的問題。首 先,我們推導了 LMR 對映矩陣的解析求解公式,然後我們錄製平行語料,採用離散倒 頻譜係數作為頻譜特徵,分割語音信號成聲、韻母之音段,再使用 LMR 對映方法來建 造出一個語音轉換系統。應用此系統,我們就可進行內部、外部之平均轉換誤差的量測, 並且和傳統 GMM 對映法所量測出的誤差距離作比較,量測的結果顯示,本論文研究的 LMR_F 對映法,不論是在內部或外部之測試情況,都可以獲得比傳統 GMM 對映法較 小的平均轉換誤差。此外,我們也進行了主觀的語音品質聽測之實驗,聽測實驗的結果 顯示,我們研究的 LMR_F 對映法,其轉換出的語音品值,能夠比傳統 GMM 對映法的 稍好一些。 關鍵詞:語音轉換,線性多變量迴歸,高斯混合模型,離散倒頻譜係數 一、緒論 語音轉換(voice conversion)研究的目標是,要把一個來源語者(source speaker)的語音轉換 成另一個目標語者(target speaker)的語音。這種語音轉換的處理,可應用於銜接語音合 成處理,以獲得多樣性的合成語音音色,此外亦可應用於作戲劇配音的處理,以讓一個 配音員可以為多個角色配音。過去在語音轉換領域,先前研究者提出的轉換方法包括了: 頻譜特徵之向量量化(VQ)對映(mapping)[1] ,共振峰(formant)頻率對映[2, 3] ,基於高斯 混合模型(Gaussian mixture model, GMM)之對映[4, 5] ,基於類神經網路(artificial neural network, ANN)之對映[6] ,基於隱藏式馬可夫模型(hidden Markov model, HMM)之對映[7, 8]等。 最近幾年有不少研究者採取基於 GMM 對映之方向來作語音轉換,並且嘗試去解決 原始 GMM 對映方式[4]所碰到的問題,例如轉換出的頻譜包絡(spectral envelope)會出現 過於平滑(over smoothing)的現象,一個例子如圖一所示,虛線曲線代表目標語者一個音 框的頻譜包絡,實線曲線則代表由來源語者音框轉換出的頻譜包絡,明顯可看出虛線曲 線的 F2 、F4 、F6 等共振峰(formant)的頻寬變寬了很多,也就是山鋒至山谷的深度減少 了,這種過於平滑的頻譜包絡,將使得據以合成出的語音信號,發生語音品質衰退的情 況,也就是語音聽起來,會讓人覺得悶悶的、不夠清晰。 圖一、過於平滑之轉換出的頻譜包絡 為了避免發生頻譜過於平滑的情況,而造成音質的衰退,在此論文裡我們遂決定採 取以最小均方(least mean square, LMS)誤差為準則,去研究線性多變量迴歸(linear multivariate regression, LMR)方式的頻譜對映方法,希望用以提升轉換出語音的音質。 線性多變量迴歸對映(簡

文档评论(0)

1亿VIP精品文档

相关文档