一种改进的基于说话者的语音分割算法.pdfVIP

一种改进的基于说话者的语音分割算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1000-9825/2002/13(02)0274-06 ©2002 Journal of Software 软 件 学 报 Vol.13, No.2 一种改进的基于说话者的语音分割算法· 卢 坚, 毛 兵, 孙正兴, 张福炎 (南京大学 计算机科学与技术系,江苏 南京 210093); (南京大学 计算机软件新技术国家重点实验室,江苏 南京 210093) E-mail: jlu@ 摘要: 语音分割是语音识别和语音文档检索等众多语音应用的基础.提出一种改进的基于说话者的语音分割算 法,对GLR 和BIC 相结合的算法作进一步的改进:(1) 基于GLR 距离方差的自适应阈值调整算法改进了不同声 学特征下基于距离的语音分割算法中的阈值选取方法;(2) 引入BIC 可测度概念来度量其适用范围;(3) BIC 信 息准则校准非冗余的候选分割点的偏差.实验结果表明,此改进算法优于原算法. 关 键 词:基于说话者的语音分割;贝叶斯信息准则(BIC);一般似然比(GLR);mel-frequency cepstral coefficient (MFCC);假设检验 中图法分类号:TP391 文献标识码: A 根据说话者、环境和信道等声学特征的变化对语音做自动分割与索引是语音应用的基础,例如,新闻节目 [1~4] [5] 的自动标注 ,基于内容的语音文档的检索 ,说话者的验证和自动跟踪,以及语音数据库的自动生成和索引 等.语音分割和索引的效果将直接影响语音识别的精度,文献[5] 指出 MLLR(maximum likelihood linear regression) 、MAP(maximum a posteriori) 和聚类变换等说话者调整训练算法其降低语音识别的误识率(word error rate)的有效程度极大地依赖于语音分割和聚类的效果.语音分割和索引的目的是将语音分割成同态的语 音片段,并根据聚类算法对具有相同声学特征的语音聚类.本文将主要研究基于说话者的语音分割问题. 目前,语音分割算法可以分为基于距离和基于模型的两类算法.基于距离的算法其思想是利用相邻窗的样 本间的距离来度量相邻语音段的相似性.距离的度量方法主要有 Kullback-Levison2(KL2)距离或者相对交叉熵 (relative cross entropy)[5,6]和一般似然比(generalized likelihood ratio,简称GLR)[7]等.基于距离的分割算法对于说 话者的改变比较敏感,但是同时也会检测出过多的冗余分割点.文献[3]提出基于模型的分割算法,如隐马尔可夫 模型(hidden Markov model,简称HMM)和高斯混合密度模型(Gaussian mixture model, 简称GMM)等,但是基于 模型的算法其计算代价过高且适应性差,不适合在线的语音应用.文献[8]提出基于贝叶斯信息准则(Bayesian information criterion, 简称 BIC) 的分割算法,它具有阈值无关性和收敛性等优点,但是被证明对极短的语音分段 效果比较差并且其计算代价很高.文献[4]提出一种计算代价比BIC 准则小的基于Hotelling 的T2 假设检验的语 音分割算法,但是它仍然具有对极短段语音分割效果较差的缺点并且还需要设定阈值.文献[1]提出一种GLR 距 离和BIC 准则相结合的基于说话者的语音分割算法,其核心思想是结合GLR 距离的对短段语音灵敏和计算代 价小的优点以及BIC 准则的阈值无关和收敛的优点.但是,文献[8]指出BIC 对极短的语音分段效果比较差,而文 献[1]在 BIC 验证过程中没有对BIC 准则的适用范围作出限定;另外, 由于GLR 距离的极值点与其方差的极值 · 收稿日期:2000-05- 10; 修改日期:2000-08-03 基金项目:国家自然科学基金资助项目60073030) 作者简介:卢坚(1974 -),男,浙江东阳人,博士生,主要研究领域为音频的分割、分类和检索;毛兵(1975 -),男,江苏无锡人,硕士 生,主要研究领域为视频分割和检索;孙正兴(1964 -),男,江苏苏州人,博士,副教授,主要研究领域为 CAD/CAM,数字图书馆;张福炎 ( 1939 -),男,浙江绍兴人,教授,博士生导师,主要研究

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档