- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
语音信号处理技术发展历程
与发展趋势
摘要:语音信号处理用以实现人一人、人一机器和机器一人的通信,是现代通
信领域的重要环节。本文主要介绍了语音信号处理技术发展历程与发展趋势。
关键词:语声信号处理语音信号处理技术发展历程发展趋势
引言:语音信号处理是信息科学的一个分支是以数字信号处理和语言学为基础
发展起来的一门交又学科包括语音编码、语音合成、语音识别与理解等三个主要
分支。语音编码的目的是将模拟的语音信号用尽可能少的比特实现数字化使被编
码和压缩后的信息更有效地在网络中传输或记录在存储器中。语音合成的目的是
让机器生成人类的自然语言。语音识别的目的是使机器能识别人类的语言从而能
够按用户的语音指令完成有关的动作或提供有关的信息服务。简而言之语音信号
处理的任务是实现人一人、人一机器和机器一人的通信是现代通信领域的重要环
节。
1.语音信号处理技术的发展历程
1.1早期语音信号处理技术的进展
20世纪60年代中期形成的一系列的数字处理方法和算法,如数字滤
器,快速傅里叶变换(FFT)等是语音信号数字处理的理论和技术基础。进入
70年代之后,语音技术取得了许多实质性的进展;用于语音信号的数据压缩和
特征提取的线性预测技术(LPC),已经成为语音信号处理的最强有力的工具,
广泛应用于语音信号的分析,合成及各个应用领域;用于输入语音与参考样本之
间时间匹配的动态规划方法。80年代初一种新的基于聚类分析的高数据压缩技
术——矢量量化(VQ)应用于语音信号处理中;而用隐式马尔可夫模型(HMM)
描述语音信号过程的产生是80年代语音信号处理技术的重大进展。近代来人工
神经网络的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要
动力之一;同时,他的许多成果,也体现在有关语音的各项应用之中,尤其语音
识别时神经网络的一个重要应用领域。
1.2现代语音信号处理技术的发展
现代数字信号处理的进步都能在语音信号处理技术中得到应用。语音信号是
最能体现信号非线性的一个领域。它包括语音编码、语音合成、语音识别与理解
等三个主要方面。
1.2.1语音编码技术
早期的语音编码技术包括以取样定理为基础的波形编码方法和基于人类发
音机理分析并提取语音特征参数进行编码传输的参数编码。但音质较好的波形编
码所需数码率太高数码率低的参数编码声音自然度又太差。从80年代开始出现
了混合编码技术。在多数新算法中仍将语音信号的构成分为声道和激励两大部分
但获取它们参数的方法各有不同。比较成功的有两类一类是用线性预测法获取声
道参数而用更精细的激励波形取代原来的清浊音二元激励另一类则是从分析语
音谱的构成出发更细致地获取谱包络和各频域的清浊音信息这一类称为多带激
励算法。
编码技术的改进使得编码算法的评价方法也发生了根本变化。现在通常采用
主观评价方法由许多经过训练的评听者对恢复的话音进行测听、打分再统计平
均。常用的是MOS分,共分五级。四分以上为网络质量,可以进人长途通信网三、
四分之间为通信质量;三分左右为合成质量,能听懂但自然度很差。
混合编码算法(LP)线性预测是最有效、应用最广泛的语音分析技术之一。
用线性预测法可以精确、快速地提供一组估计语音信号的谱幅度构成声道滤波
器,用于实时的语音编码系统以及语音识别和合成系统中。线性预测技术的基本
思想是:语音信号当前的一个样值可以用若干项过去的样值的线性组合来逼近
项数称为线性预测的阶数,各项的系数可根据实际样值和预测值间的误差最小准
则求得。系数随人讲话时的口型而作缓慢变化但在短时内可以认为近似不变,这
个时间段称为帧(通常为5~20ms)。按帧刷新参数.。
传统的二元激励模型虽然也采用了线性预测算法,如美国国家安全局推出的
LPC—10以及LPC—10E联邦标准型的数字保密电话但由于它的激励方式过
于简单合成话音虽有相当高的清晰度和可懂度,但自然度很差。自适应差分脉码
调制(ADPCM)利用预测技术,同时还用较多的比特传递预测后的误差信号也只
能将数码率降至再降低32bit/s,就不能保证高质量的话音。
沿这一思路的混合编码算法的基本思想是:采用线性预测法获取声道参数
,将提取声道参数后的残差作为激励参数,用波形编码的方法来处理,如何高效
地获取和传递激励参数是关键,较成功的方法有以下两种:
您可能关注的文档
最近下载
- 新高考“3 1 2”模式选科指导课件.pptx VIP
- 《国家心力衰竭指南2023》亮点解读.pptx VIP
- 天然气管道涉路工程(定向钻穿越)安全评价报告.pdf VIP
- 国家心力衰竭指南2023.pptx VIP
- 护理学职业生涯规划书.pdf
- 人工智能对英语课堂教学的挑战与变革.docx VIP
- 牛津上海版小学英语5年级上册 Module 3 Unit 3 Seeing the doctor 公开课PPT课件4.pptx
- 《有色金属矿山废弃地生态修复效果评估技术规范》.pdf
- 考研人格心理学-笔记(许燕版)-TangDi.doc VIP
- 国家心力衰竭指南 2023(精简版)(下).pptx VIP
文档评论(0)