- 7
- 0
- 约2.26万字
- 约 12页
- 2017-09-02 发布于天津
- 举报
以线性多变量回归来对映分段后音框之语音转换方法a voice - 古鸿炎
以線性多變量迴歸來對映分段後音框之語音轉換方法
A Voice Conversion Method Mapping Segmented Frames with Linear
Multivariate Regression
古鴻炎 張家維 王讚緯
Hung-Yan Gu Jia-Wei Chang Zan-Wei Wang
國立臺灣科技大學 資訊工程系
Department of Computer Science and Information Engineering
National Taiwan University of Science and Technology
e-mail: {guhy, m9815064, @.tw
摘要
基於 GMM 對映之語音轉換方法常遇到的一個問題是,轉換出的頻譜包絡會發生過於平
滑 (over smoothing) 的現象,因此本論文嘗試以線性多變量迴歸 (linear multivariate
regression, LMR)來建構另一種頻譜對映的方法,希望能夠改進頻譜過平滑的問題。首
先,我們推導了 LMR 對映矩陣的解析求解公式,然後我們錄製平行語料,採用離散倒
頻譜係數作為頻譜特徵,分割語音信號成聲、韻母之音段,再使用 LMR 對映方法來建
造出一個語音轉換系統。應用此系統,我們就可進行內部、外部之平均轉換誤差的量測,
並且和傳統 GMM 對映法所量測出的誤差距離作比較,量測的結果顯示,本論文研究的
LMR_F 對映法,不論是在內部或外部之測試情況,都可以獲得比傳統 GMM 對映法較
小的平均轉換誤差。此外,我們也進行了主觀的語音品質聽測之實驗,聽測實驗的結果
顯示,我們研究的 LMR_F 對映法,其轉換出的語音品值,能夠比傳統 GMM 對映法的
稍好一些。
關鍵詞:語音轉換,線性多變量迴歸,高斯混合模型,離散倒頻譜係數
一、緒論
語音轉換(voice conversion)研究的目標是,要把一個來源語者(source speaker)的語音轉換
成另一個目標語者(target speaker)的語音。這種語音轉換的處理,可應用於銜接語音合
成處理,以獲得多樣性的合成語音音色,此外亦可應用於作戲劇配音的處理,以讓一個
配音員可以為多個角色配音。過去在語音轉換領域,先前研究者提出的轉換方法包括了:
頻譜特徵之向量量化(VQ)對映(mapping)[1] ,共振峰(formant)頻率對映[2, 3] ,基於高斯
混合模型(Gaussian mixture model, GMM)之對映[4, 5] ,基於類神經網路(artificial neural
network, ANN)之對映[6] ,基於隱藏式馬可夫模型(hidden Markov model, HMM)之對映[7,
8]等。
最近幾年有不少研究者採取基於 GMM 對映之方向來作語音轉換,並且嘗試去解決
原始 GMM 對映方式[4]所碰到的問題,例如轉換出的頻譜包絡(spectral envelope)會出現
過於平滑(over smoothing)的現象,一個例子如圖一所示,虛線曲線代表目標語者一個音
框的頻譜包絡,實線曲線則代表由來源語者音框轉換出的頻譜包絡,明顯可看出虛線曲
線的 F2 、F4 、F6 等共振峰(formant)的頻寬變寬了很多,也就是山鋒至山谷的深度減少
了,這種過於平滑的頻譜包絡,將使得據以合成出的語音信號,發生語音品質衰退的情
況,也就是語音聽起來,會讓人覺得悶悶的、不夠清晰。
圖一、過於平滑之轉換出的頻譜包絡
為了避免發生頻譜過於平滑的情況,而造成音質的衰退,在此論文裡我們遂決定採
取以最小均方(least mean square, LMS)誤差為準則,去研究線性多變量迴歸(linear
multivariate regression, LMR)方式的頻譜對映方法,希望用以提升轉換出語音的音質。
線性多變量迴歸對映(簡
原创力文档

文档评论(0)