说话人日志中可靠静音模型语音活动检测方法
杨登舟;徐嘉明;刘加;夏善红
【摘要】为了解决传统语音活动检测(VAD)技术分离出的语音段掺杂静音以及帧
间频繁跳动产生短语音碎片的问题,提出在说话人日志中能够高效稳定地完成语音
活动检测的方法.该方法利用可靠静音模型对语音的区分度高这个特性,通过循环迭
代收敛得到稳定划分.建立静音和语音模型,通过帧间连续性原理进行不确定性解码
得到帧类属信息,开展低能量短时间语音碎片后处理完成语音活动检测.在富标注说
话人日志数据集上测试,实验结果表明,由于对静音模型的描述更加可靠,采用该方法
可以减少帧间跳动,减少静音模型对语音的吸收误判,性能比基于子带熵顺序统计滤
波(SE-OSF)方法提高明显.
【期刊名称】《浙江大学学报(工学版)》
【年(卷),期】2016(050)001
【总页数】7页(P151-157)
【关键词】说话人日志;富标注;语音活动检测(VAD);高斯模型;维特比解码
【作者】杨登舟;徐嘉明;刘加;夏善红
【作者单位】中国科学院电子学研究所,北京100190;中国科学院大学电子电气与
通信工程学院,北京100049;中国科学院电子学研究所,北京100190;中国科学院大
学电子电气与通信工程学院,北京100049;清华大学电子工程系,北京100084;中国
科学院电子学研究所,北京100190
【正文语种】中文
【中图分类】TN912
说话人日志(speakerdiarization,SD),即说话人分割聚类,确定一段语音音频数据的
各时间片段里分别是谁在说话(whospokewhen)[1].它是语音信号处理里面经常
遇到的问题,既可以作为语音识别和说话人识别的前端处理模块,也可以作为说话人
转换独立问题.美国国家标准及技术研究所(NationalInstituteofStandardsan
Technology,NIST)组织的富标注(richtranscription,RT)评测自从2002年开始将
说话人日志纳入评测范围,已经举办多年[1].通常说话人日志包含以下3个方面的内
容[2]:1)将语音按照语音和非语音切分成不同的片段,该过程叫做语音活动检测
(voiceactivitydetection,VAD)[3];2)将切分出来的语音按照不同说话人分割开
来,该过程称为说话人改变点检测(speakerchangedetection,SCD)[4];3)将同属
于某一个人的语音标注上相同的标签,称为说话人聚类(speakerclustering,SC)[5].
从时间顺序上来看,像计算机后台服务日志(每个时间段,产生了新的进程,销毁了无
用进程,并实时记录)一样,说话人日志需要告诉用户在每个时间片段,待处理语音中
是谁在说话.
早期的语音活动检测算法都是基于距离度量的.从语音中提取出时域的特征(包括短
时能量、过零率、过零率变化等)[6],通常信号能量高于噪声能量,信号过零率低于
高斯白噪声,信号过零率的变化比噪声大,通过设定门限值,直接作出决策判断.Shen
等[7-8]发现频域度量语音和噪声区分度较好的特征-频谱子带熵,信息论表明,信号
熵是表征信号不确定度的参量.由于噪声信号(如高斯白噪声)通常随机性比较大,而
语音是相对有规律性的信号,表现在频域,即噪声的频谱分布比较均匀,信号频谱分布
局部能量起伏较大,因此语音的熵比噪声的熵小得多.之后,Wang等[9-10]开始尝试
基于听觉特性的说话人识别中的常用特征——梅尔倒谱系数(Mel—frequence
cepstralcoefficients,MFCC),MFCC特征在说话人识别中的表现一直是不错
的.Ramirze等[11-12]考虑到语音信号帧间关联性强的特定,引入最早应用在图像
处理领域中的边缘检测算法——顺序统计滤波器(orderstatisticsfilter,OSF),将每
帧语音与基准帧的相似性距离送入顺序统计滤波器,对波动性较大的相似度距离进
行近邻平滑,得到相似度的优化值,然后与初始设置的门限作判决.
在说话人日志领域,语音端点检测算法基本都是基于模型的[13],建立语音模型和静
音模型,利用模型的稳定性去克服距离度量中所存在的帧间跳动缺陷,能够得到较好
的性能.考虑到说话人日志对语音端点检测要求的苛刻,本文提出基于可靠静音模型
(reliablesilencemodel,RSM)的方法,使说话人日志中语音端点检测更加准确,更加
稳定,得到更加合理
您可能关注的文档
最近下载
- (正式版)DB61∕T 1998-2025 《 干线公路养护工程预算编制规范》.pdf VIP
- 英文科技论文写作与投稿PPT课件.ppt VIP
- 炼油装置设备腐蚀与防护.pptx VIP
- 天津市南开中学2025届高三三模语文试题(含答案).pdf VIP
- 技能大赛(电气安装与维修项目)试卷.docx VIP
- 2025年管理学原理复习资料考试.doc VIP
- 金属加工软件:ESPRIT二次开发_(11).自动化编程技术.docx VIP
- 在线网课学习课堂《人工智能(北理 )》单元测试考核答案(1).docx VIP
- CAM软件:ESPRIT二次开发_(10).数据交换与接口技术.docx VIP
- 质量管理质量工具及其应用指南.docx VIP
原创力文档

文档评论(0)