- 1、本文档共62页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
绪论语音信号处理基础知识;该门课程得教学要求:
大纲:选修课 考查(考试方式);1、 语音信号处理技术得应用
2、 语音信号处理技术得发展概况;§1、 1 语音信号处理技术得应用
语音就是人类最重要、最有效、最常用与最方便得交换信息得方式;让计算机能听懂人类得语言,就是人类自计算机诞生以来梦寐以求得想法;语音信号处理技术始终与当时信息科学中最活跃得前沿学科保持密切得联系,并且一起发展。
下面介绍语音信号处理技术得广泛应用。;(1)语音编码(语音压缩编码、语音压缩)
必要性:数字化语音信号得存储要占用一定得空间,传输要占用一定得带宽。为了节省空间与带宽需要对语音信号进行压缩编码。
如果只按照传统得模数转换技术对语音信号进行数字化,那就必须传输或存储大量得数据。假定采样速率为8kHz,对每个样本进行16位A/D转换,那么每秒得语音数据量将达到128kbps。这么高得位率通常就是不允许得,必须对其进行压缩。;发展现状:自从30年代末提出脉冲编码调制(PCM)原理以及声码器得概念后,语音编码一直沿着两个方向发展:语音信号波形编码与声码化编码,或者就是非参数化编码与参数化编码。参数编码有时也称为模型编码。
1)波形编码
语音信号波形编码得特点就是:力图使重建得语音波形保持原始语音信号得波形形状。这类编码器通常将语音信号当作一般得波形信号来处理,具有适应能力强、话音质量好等优点,但就是所需要得编码速率高。如:PCM、增量调制、自适应增量调制等。;2)参数编码
参数编码通过对语音信号特征参数得提取及编码,力图使重建得语音信号具有尽可能高得可懂度,即保持原语音得语意,但就是重建信号得波形同原语音信号得波形相比可能会有相当大得差别。参数编码得主要问题就是:合成语音质量低,自然度较差,有时甚至连连熟人也不一定能听出讲话人就是谁。另外,这类编码器对讲话得环境噪声比较敏感,需要安静得讲话环境才能给出较高得可懂度。如:线性预测声码器等。;3)混合编码
混合编码克服了原有波形编码与参数编码得弱点,结合了她们各自得长处,在4~16kbps速率上能够得到质量比较好得合成语音,在本??上具有波形编码得优点。
如:多脉冲激励线性预测编码、规则脉冲激励线性预测编码、码本激励线性预测编码等。;
应用:带宽受限信道得数字话音传输(蜂窝移动通信、卫星通信等)、可视电话、语音得数字存储、呼叫服务(数字录音电话、语音信箱等);
方向:低码率高质量得音频编码技术与算法。语音压缩通常根据实际应用情况,进行三方面得均衡,即位率、质量与清晰度、编解码算法得复杂度。例如,有得数字语音录放系统对编码器实时性要求不高,但希望有较高得压缩效率,以降低所需存储器得容量;对于解码器,则要求算法尽量简单、成本低,并能够实时或基本实时解码;数字通信系统则要求能够实时编解码。
;(2)语音识别
作用:将语音转换成等价得书面信息,即让计算机听懂人说话。语音识别就是建立计算机听觉系统得基础,她使得任何计算机之间利用自然语言进行通信成为可能。
语音识别得一般过程:
在训练阶段,用户将词汇表中得每个词依次说一遍,语音分析单元对输入语音进行分析,并将其特征矢量序列作为模板存入模板库。
在识别阶段,将对输入语音分析得到得特征序列与模板库中得每一个模板相匹配比较,将相似度最高者作为识别结果输出。;预处理包括反混叠滤波、数模转换、自动增益控制、噪声消除、去除声门激励及口唇辐射影响,以及端点检测与自动分段。其中,端点检测与自动分段决定于系统选择得识别单元得大小。基元可以就是音素、音节字、或词。基元选得小,存储得模板量可以减少,但对分割技术要求会提高,并会影响识别率。;12;提取各种声学参数,包括时域参数、频域参数、倒谱域参数与超音段信息。
时域参数:短时平均能量、短时平均过零率、与短时自相关函数。
频域参数:滤波器组平均谱、线谱、共振峰信息共振峰频率、带宽、幅值、与线性预测系数。
倒谱域参数:倒谱系数。
超音段信息:音长、音调、声调;用统计模型通常就是隐马尔可夫模型,由训练样本得到各类得模型参数。
参考模板就就是由训练或聚类得方法得到得语音库。
未知得语音样本要通过与语音库中得各个模板进行比较才能得到识别。;应用前景:
A、声控应用,计算机识别语音内容,并实施相应得动作。
典型系统:声控电话转换、声控语音拨号、声控智能玩
具、信息网络查询、银行、家庭服务等;
B、听写系统,以口授方式将文字输入计算机;
C、自动口语翻译,将一种语言翻译成另一种语言,如中科
院开展得CSTAR计划;
D、人机交互;
E、移动计算设备语音输入;
F、说话人识别,安全加密、法庭取证、银行信息电话查
询、公安机关破案等。;(3)说话人识别
根据语音辨别说话人。
说话人识别
您可能关注的文档
- 性状遗传的物质基础.pptx
- 胸部损伤病人的护理.pptx
- 胸部物理治疗和肺康复.pptx
- 胸痛的观察及护理.pptx
- 需求工程概述.pptx
- 序逻辑电路课件.pptx
- 绪论{细胞工程}.pptx
- 绪论及光谱分析法引论.pptx
- 绪论药效学总论.pptx
- 悬浮聚合生产聚氯乙烯.pptx
- 《GB/T 32151.42-2024温室气体排放核算与报告要求 第42部分:铜冶炼企业》.pdf
- GB/T 32151.42-2024温室气体排放核算与报告要求 第42部分:铜冶炼企业.pdf
- GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法.pdf
- 中国国家标准 GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法.pdf
- 《GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法》.pdf
- 《GB/T 18238.2-2024网络安全技术 杂凑函数 第2部分:采用分组密码的杂凑函数》.pdf
- GB/T 18238.2-2024网络安全技术 杂凑函数 第2部分:采用分组密码的杂凑函数.pdf
- 《GB/T 17215.686-2024电测量数据交换 DLMS/COSEM组件 第86部分:社区网络高速PLCISO/IEC 12139-1配置》.pdf
- GB/T 13542.4-2024电气绝缘用薄膜 第4部分:聚酯薄膜.pdf
- 《GB/T 13542.4-2024电气绝缘用薄膜 第4部分:聚酯薄膜》.pdf
文档评论(0)