基于BP神经网络孤立词端点检测主客观误差分析.docVIP

基于BP神经网络孤立词端点检测主客观误差分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于BP神经网络孤立词端点检测主客观误差分析

基于BP神经网络孤立词端点检测主客观误差分析摘要:本文选取短时能量、短时过零率、幅度信息熵三种经典的特征分析方法,并结合BP神经网络作为特征分类系统进行断点检测分析。将客观检测和以听觉判断对语音端点的主观评测进行误差分析,比较各算法的效果,实验结果表明采用BP网络和动态阈值的双门限法进行端点判断效果较好,而采用双门限法检测结果优于使用特征值加BP神经网络。 关键字:双门限法;信息熵;BP神经网络;动态阈值端点检测;Matlab 中图分类号:TN915.5 文献标识码:A 前言 语音端点检测是语音分析、语音合成和语音识别中的一个必要环节。目前典型的三种端点检测方法有三种:基于能量的端点检测方法[6]、MFCC倒谱距离测量方法和基于谱熵[2]的语音端点检测方法。但不同单一特征值对端点检测的效果各有优劣,并考虑到BP神经网络易于实现、良好的学习性、训练性及端点判断的高准确性等特点,设法结合多种特征值综合作为神经网络的输入端内容进行端点检测分析测试。通过实验测试来分析这三种方法的特点验证使用双门限法检测结果优于使用特征值加BP神经网络。 一、双门限法、信息熵法和BP神经网络的实验方法 本文建立一个包含语音短时能量En、短时过零率Zn和幅度信息熵H三种特征值作为特征输入的BP神经网络。采用Matlab工具箱里的函数来建立BP网络,采用音频段是在实验室条件下录制5组音频。采样率为22050Hz,选择每帧大概20ms以内。具体测试步骤如下: 1.设计提取特征值数据: (1)利用En和短时过零率Zn结合的双门限方法[3]进行特征参数提取和检测。 (2)对每帧求其幅度信息熵,计算出每帧信息熵为:(幅度值归一化到[-10,10])。 2.建立训练样本和测试样本:选取a组中两段音频,分别采集3行400列共1200个语音段特征数据点作为训练输入样本,选相应的1/0对应语音段/非语音段为训练输出样本。提取整个音频段m帧的过零率,短时能量和信息熵,产生3行Xm列的测试样本。 3.建立BP网络,并训练网络:不同类的特征数据在神经网络训练中需要转换成统一标尺的数据,将归一化处理提取的特征值样本值和理想输出值输入到BP网络中进行训练。 4.网络测试:将训练好的网络作用于测试数据,这里用tramnmx函数做测试数据的归一化处理。 5.根据测试结果判断语音端点。 二、实验结果及分析 1.动态阈值的双门限法:测试结果见图1(a),其中实线是由静态阈值确定,虚线是有自适应阈值确定。处理后对语音端点检测可明显看出一些噪音被滤除,端点检测准确性提高。双门限法中阈值初始值和权值的确定不同则截取的起止点效果也不同,本文是对整个语音段数据做了平均值处理并乘以权值。 2.幅度信息熵法:比较图1(b)和图1(c),可以观察信息熵方法比双门限法对语音终止点的判断结果更准确,这是因为语音幅度信息熵对于语音清浊音的特性反应较好。 3.BP神经网络法:如图1(d)。 起止点数据统计:采用双门限法、信息熵法和BP神经网络法测得的端点记录摘取部分见表1。第b组语音采用音频混音剪辑大师主观截取并计算的端点帧数(起始点t1,终止点t2)见表2。 4.数据误差:记录第k组用算法客观测试的起始点时刻为tk1,终止点时刻为tk2,采用音频工具主观测试的起始点时刻为t1,终止点时刻为t2,以主观测试数据作为起止端点时刻的真值,计算起始点主客观测试的相对误差(终止点误差算法相同),误差图见图5、图6。绝对误差:;相对误差: 5.根据语音端点帧数可计算出端点对应的时刻t(分帧误差暂忽略)。图5、图6是对四组语音段(每组5个词)的起始点、终止点做出的误差曲线图。观察图5、图6,看出动态双门限法测试结果较准确,而BP网络的方法检测误差比信息熵法的检测误差小,在第15~20点是女生语音段,因为对神经网络做训练的语音组是男生语音,而该测试组声音是女生的语音,所以主客观测试误差较大。 三、实验结论 从实验中发现采用改进的动态阈值双门限法在起始点的判断中效果较好。幅度信息熵法在语音终止点测试中效果较好。BP神经网络将这三种特征值结合判断相对于单独用信息熵方法增大了的端点检测准确性。本文采用BP网络和动态阈值的双门限法进行端点判断效果较好,而采用双门限法检测结果优于使用特征值加BP神经网络。在实验中存在BP网络测试误差较大主要因为网络训练的数据量不多,并需要对训练集合数据进行零均值处理。通过实验在第g组(g组为女生语音段)语音端点检测的相对误差较大,可以证实了男女声音特点标准的不同。 参考文献: [1]乔峰.基于信息熵和神经网络的语音端点检测算法研究[D].太原理工大学.2007.

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档