使用潜在狄利克雷分解的单声道说话人分离.docVIP

  • 5
  • 0
  • 约5.65千字
  • 约 5页
  • 2017-08-22 发布于重庆
  • 举报

使用潜在狄利克雷分解的单声道说话人分离.doc

使用潜在狄利克雷分解的单声道说话人分离.doc

使用潜在狄利克雷分解的单声道说话人分离 摘要:我们提出了一种使用声谱图的潜在变量分解算法,来从混合的单声道录音里分离出多个说话人。我们将语音信号短时傅立叶变换的每一个幅度谱分量建模成一个离散随机过程的输出。这个离散随机过程产生一系列频率分辨率分量。这个过程被建模成混合多项式分布,这些分量多项式的混合权重在不同的分析窗间变化。这些分量多项式可以认为是属于特定说话人的,而且可以通过对每一个说话人训练信号来得到。我们把每一个说话人的混合权重的先验分布建模成一个狄利克雷分布。代表混合信号幅度谱分量的分布被分解成所有单个说话人多项式分布的混合。通过这种分解,频率分布,或者说每一个说话人的语音频谱将得到重建。 简介 对于单声道说话人的分离问题,比如说从有几个人说话的单声道录音里分离出当前说话人的问题,历史上一直是考虑从频率选择的角度来解决的。为了分离出每一个说话人的语音信号,需要从不完整的视频序列里,重建出混合信号中的受说话人控制的时频分量。对说话人的时频分量的选择在实际中可能是基于感知原理的(如文献【1】),或者是基于统计模型的(如文献【2】),也可能是基于二进制或者概率性的(如文献【3】)。 在这篇论文中,我们采用了一种可变的方法,试图为每一个说话人重建全部的频谱,而不是得到部分的频谱描述。特别地,在这种方法中,对每一个说话人,典型的短时谱结构,或者说短时基,从训练数据中学习的到。混合信号

文档评论(0)

1亿VIP精品文档

相关文档