听觉特性在语音参数提取中的应用.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
听觉特性在语音参数提取中的应用王之禹李明温源侯震中国科学院声学研究所1 简介众所周知 在提取语音参数的过程中合理地引入人耳的听觉特性将有助于提高 ASR 系统 的性能 本文给出了一种基于人耳听觉特性的语音参数 感知功率谱倒谱参数 PerceptualPower Spectral Ceptrum物理含义 实验结果表明 本文的内容安排如下该参数类似于 MFCC 参数 但是具有明确的基于人耳感知特性的PPSC 参数与 MFCC 参数的性能基本相似首先介绍人耳的听觉特性 然后给出基于听觉特性的语音参数提取方法 最后 给出实验及分析结果2 人耳听觉特性为了模拟人耳处理语音信号的过程 首先介绍一下听觉系统对于语音刺激的响应和主观 感受及其评价方法2.1 听域正常人可听声音的频率范围为 0.02~16kHz 考虑到正常语音的频谱范围一般在 0.02~8kHz 之间 语音识别系统通常采用 16kHz 的采样频率2.2 响度级 Loudness Level和响度 Loudness为了衡量人耳听辩不同频率纯音的不同灵敏度 定义声音的响度级 P Phon数值上等于 1kHz 纯音的声强级 确定声音的响度级时音的声强 使其听起来与待测音同样响 此时 声音的响度级 等响度曲线可以通过测量获得 提取过程中 采用的是等响度曲线经验公式2.3 音调 Pitch需将其与 1kHz 的纯音相比较 调节 1kHz 纯1kHz 纯音相对于 20uPa 听觉特性在语音参数提取中的应用 王之禹 李明 温源 侯震 中国科学院声学研究所 1 简介 众所周知 在提取语音参数的过程中合理地引入人耳的听觉特性将有助于提高 ASR 系统 的性能 本文给出了一种基于人耳听觉特性的语音参数 感知功率谱倒谱参数 Perceptual Power Spectral Ceptrum 物理含义 实验结果表明 本文的内容安排如下 该参数类似于 MFCC 参数 但是具有明确的基于人耳感知特性的 PPSC 参数与 MFCC 参数的性能基本相似 首先介绍人耳的听觉特性 然后给出基于听觉特性的语音参数提 取方法 最后 给出实验及分析结果 2 人耳听觉特性 为了模拟人耳处理语音信号的过程 首先介绍一下听觉系统对于语音刺激的响应和主观 感受及其评价方法 2.1 听域 正常人可听声音的频率范围为 0.02~16kHz 考虑到正常语音的频谱范围一般在 0.02~8kHz 之间 语音识别系统通常采用 16kHz 的采样频率 2.2 响度级 Loudness Level 和响度 Loudness 为了衡量人耳听辩不同频率纯音的不同灵敏度 定义声音的响度级 P Phon 数值上等 于 1kHz 纯音的声强级 确定声音的响度级时 音的声强 使其听起来与待测音同样响 此时 声音的响度级 等响度曲线可以通过测量获得 提取过程中 采用的是等响度曲线经验公式 2.3 音调 Pitch 需将其与 1kHz 的纯音相比较 调节 1kHz 纯 1kHz 纯音相对于 20uPa 的声压级就规定为该 也可以用经验公式表示 在本文介绍的参数 音调是人分辨声音高低时 描述这种感受的一种特性 对于频率低的声音 听起来感觉 其音调低 而频率高的声音 特起来感觉音调高 而且还与声音的强度及波形有关 为了描述音调 用近似公式表达[1] f 但是音调与声音的频率并不成正比关系 采用了美 Mel 标度 与频率的关系可 TMel ? 2595 log10 (1 ? ) 1 700 2.4 掩蔽效应 Masking effect 当两个响度不同的声音同时作用于人耳时 响度较高的频率成份会影响人耳对响度较低 的频率成份的感知 使其变得不易察觉 这种现象称为掩蔽效应 为描述这种掩蔽效应 引 入临界带 Critical band 的概念 一个纯音可以被以它为中心频率 并且具有一定频带 宽度的连续噪声所掩蔽 如果该频带内的噪声功率等于该纯音的功率 此时该纯音处于刚能 被听到的临界状态 即称这一带宽为临界带宽 临界带宽的单位可以用 Bark 表示 在 20Hz 到 16kHz 范围内的声音可以分为 24 个 Bark 临界带宽 ? 系可近似表达为[2] Bark 与频率 f Hz 之间的关 f f )2 ? 1]0.5 } ?(?) ? 6 log{ ? [( 2 600 600 3 基于人耳听觉特性的语音特征参数 本文给出的语音参数是以频谱分析为基础的 模拟人耳的带通滤波器组特性3.1 频谱分析首先对语音信号进行分帧处理 帧长 20 毫秒 帧移 10 毫秒 对于 16kHz 采样的语音 每帧有 N=320 个采样点首先 利用汉明窗W (n) 对长度为 N 的语音帧 S (n) 进行加权SW (n) ? S(n

文档评论(0)

ligennv1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档