病态嗓音特征的小波变换提取和识别研究.docVIP

病态嗓音特征的小波变换提取和识别研究.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
病态嗓音特征的小波变换提取及识别研究 于燕平 胡维平, 摘 要:通过分析嗓音的发音机理、病态嗓音与正常嗓音在频域的表现差异,利用小波变换对信号进行分解,突出病态嗓音的特点,本文提出了基于多尺度分析的小波降噪、分解的熵系数(Entropy Coefficient based on De-noise ,Decomposition of Multi-scale Analysis, ECDDMA)作为识别的特征矢量集。并对比分析了语音识别中经典特征参数Mel倒谱系数(MFCC),分别运用这两种特征参数对242例正常嗓音和234例病态嗓音运用高斯混合模型(GMM)进行了识别。结果显示:ECDDMA系数较传统的模拟人耳听觉非线性特性的MFCC及其动态特征能更准确的表征正常与病态嗓音之间的差异,有利于同时提高病态和正常嗓音的识别率。 关键词: 高斯混合模型(GMM);病态嗓音; Mel倒谱系数(MFCC);小波变换 1引言 声带的各种病理性改变导致其振动和闭合异常,使得喉声源声学性质发生改变,出现不同程度的声音嘶哑[1]。目前国内较为常用的喉功能检查方法是利用计算机技术,采用 Dr.speech软件进行正常嗓音及病态嗓音的多种声学参数分析,同时和电声图结合能进一步地对基频(F0)、频率微扰 (Jitter)、振幅微扰(Shimmer)、规范化噪声能量(NNE)等各种声学参数进行检测,但它们在有效检测病态嗓音方面都存在一定局限[2][3]。而计算机病态嗓音识别方法对临床实现无痛无损伤化嗓音检查具有重要的意义[4]。 语音信号是一种非线性、非平稳的信号,以往求取特征的方法都是通过加窗傅立叶变换,这种变换最大的缺点就是不能同时提高时间与频率的分辨率,而小波变换则可以很好的克服这个缺点,它可以灵活的调整时-频窗,同时对时频分辨率作出贡献。在传统计算机语音识别方法中,因MFCC 能比较充分利用人耳特殊感知特性而获得了广泛的应用[5],但有分析认为人耳在最初识别声音时使用的是小波变换[6],结合病态嗓音在不同频率范围表现的差异[7],本文提出了基于多尺度分析的小波降噪、分解的熵系数(Entropy Coefficient based on De-noise, Decomposition of Multi-scale Analysis, ECDDMA),并用实验证明了ECDDMA在病态嗓音识别中与传统特征相比的优越性。近年来,HMM广泛的用于语音识别,神经网络也被用于病态嗓音评估[8],作为状态数为1的连续型 HMM的高斯混合模型(GMM)也同样得到了广泛的应用。由于在一个状态中可以包含多个 高斯密度函数, 不存在状态转移概率,因此在计算量上GMM 就比HMM 要小得多。使用GMM对病态嗓音和正常嗓音尝试识别率。特征使用目前 广泛应用于语音识别的MFCC参数及提出的ECDDMA参数,并比较其识别效果。 2 数据来源 本文实验数据来源于临床病例,采集数据时的环境要求在安静的室内进行;采样频率为16kHz,时间1.5s至3s;受试声样为汉语元音‘a’,分别对正常人和患有各类喉科疾病的对象进行语音采样。正常对照组242例,年龄18—40周岁,平均年龄25周岁,经询问近期无喉部疾病者;病态嗓音组234例,年龄15—50周岁,平均年龄27周岁,为前来医院就诊临床病例。采集后用cooledit软件进行语音分割,得到实验用语音库。 3 高斯混合模型(GMM) GMM作为高斯概率密度函数的一个线性组合,只要有足够数目的混合分量,就可以逼近任意一种密度函数。一个M阶混合高斯模型的概率密度函数是由M个高斯概率密度函数加权求和得到的,所示如下: (1) 其中,X是一个D维随机向量,是子分布,,,是混合权重。每个子分布是D维的联合高斯概率分布,可表示为: (2) 其中代表此密度函数的均值向量,则代表此密度函数的协方差矩阵,混合权重需满足: (3) 完整的混合高斯模型有参数表示为: (4) GMM模型参数估计最常用的参数估计方法是最大似然(Maximum Likelihood,简称为ML)估计。对于一组长度为T的训练矢量序列GMM的似然度可以表示为: (5) 由于上式是参数的非线性函数,很难直接求出上式的最大值。因此,常常采用EM(Expection Maximization,简称为EM)算法估计参数。对于多观察序列迭代的ML重估公式为: (6) (7)

文档评论(0)

139****3928 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档