语音信号处理全解.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音信号处理全解

参数编码概念、与波形编码的不同 声码器的基本结构 相位声码器和通道声码器 同态声码器 线性预测声码器 混合编码: MPLPC 、CELP 原理、 传输码率计算等 第十一章 语音编码-声码器技术及混合编码 语音合成的概念、目的 语音合成系统与声码器中的语音合成器的区别 语音合成原理 语音合成的方法:波形合成法 、参数合成法规则合成法 语音合成系统的特性 共振峰合成 线性预测合成:形式有两种 用预测器系数ai直接构成的递归型合成滤波器 采用反射系数构成的格型合成滤波器 第十三章 语音识别 语音识别的概念、目的和分类 语音识别原理:模式匹配原理、语音识别的步骤 框图理解 动态时间规整(DTW):目的、原理 孤立词识别系统:原理和框图理解 端点检测的作用 1.什么是语音识别?语音识别系统如何分类?当前,语音识别的主流方法是什么? 2.语音识别系统由哪几个部分组成?语音识别中常用的语音特征参数有哪些? 3.什么是动态时间规整?实际中,它解决了什么问题? 4.孤立词识别系统框图?框图中,参考模式库和模式识别的作用是什么? 第十三章思考题 第十四章 说话人识别 说话人识别定义、目的和关键问题 说话人识别分类、应用 特征提取 说话人识别所用的特征 特征类型的优选准则: F比作为有效性准则 说话人识别系统的结构: 组成、基本结构、说话人识别系统的性能评价 如:说话人确认系统最重要的两个性能指标: 错误拒绝率(FR)、错误接受率(FA) 说话人识别中的识别方法 DTW型说话人识别系统:说话人确认系统 应用VQ的说话人识别系统:说话人辨认系统 1.说话人识别和语音识别的区别在什么地方? 2.说话人确认和说话人辨认有什么不同? 3.在说话人识别中,应选择哪些可以表征个人特征的识别参数? 4.怎样评价说话人识别特征参数选取的好坏?即F比的物理意义? 5.说话人确认系统最重要的两个性能指标是什么?含义为什么? 6.基于DTW和VQ算法的系统框图理解。 第十四章思考题 人类的语音是由人体发音器官在大脑控制下的生理运动产生的; 人的发音器官包括:肺、气管、喉、咽、鼻、口等。 声带开启和闭合使气流形成一系列脉冲。 每开启和闭合一次的时间即振动周期称为基音周期,其倒数为基音频率,简称基频。基频决定了声音频率的高低,频率快则音调高,频率慢则音调低。 基音的范围约为70 -- 350Hz,与说话人的性别、年龄等情况有关。 语音由声带振动或不经声带振动来产生,其中: 由声带振动产生的音称为浊音(Voice Speech); 不由声带振动产生的音称为清音(Unvoice Speech) 。 使声道完全闭合,在闭合后建立起气压,然后突然释放,得到爆破音称为爆破音(plosive Speech): 声道可以等效为一个谐振腔,有许多谐振频率。谐振频率由每一瞬间的声道外形来决定。 若声道截面是均匀的,则谐振频率发生在: c为声速,空气中为350m/s,L为声道长度,n为序号。 音质:区别与其它声音的基本特征 音调:声音的高低;取决于频率 音量:声音的强弱;声波振动的幅度 音长:声音的长短。发音持续时间的长短 图2-7 Ten above In the suburbs 时域波形 图2-8 元音【∧】的频谱 图2-9 辅音【S】的语谱 基音周期的计算 清音浊音的判断 学习得到 图2-6 输出的语音频谱 虚线为谱包络,恢复谱包络是许多语音处理应用中的主要问题,因为谱包络携带了主要的发音信息 根据长时间范围内一段语音信号的大量取样数据的绝对值计算其直方图 方法 概率密度 修正伽玛概率密度 拉普拉斯分布 图2-10 修正伽玛密度、拉普拉斯密度和高斯密度以及天气预报语音的长期幅度分布 图2-11 语音幅度的累计频度分布 观察 得到 语音主要集中在幅度较小的区域 语音的动态范围都超过50dB 激励模型 发不同性质的音时,激励的情况是不同的。 (1)发浊音时 声带不断张开和关闭,产生间歇的脉冲波。 见图2-13。 则激励信号是一个以基音周期为周期的斜三角脉冲串。 从频谱上看,是一个低通型滤波器。可以表示为Z变换的全极点模型形式: (2)发清音时 声道被阻碍形成湍流,可模拟为随机白噪声。 见图2-12。 实际中使用均值为0、方差为1,并在时间或幅度上为白色分布的序列 声道模型

文档评论(0)

ee88870 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档