[工学]第01讲 绪论+语音信号处理基础知识.pptVIP

[工学]第01讲 绪论+语音信号处理基础知识.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[工学]第01讲绪论语音信号处理基础知识

语音信号处理是许多信息领域应用的核心技术之一,是目前发展最为迅速的信息科学研究领域中的一个。语音信号处理是目前极为活跃和热门的研究领域,其研究涉及一系列前沿科研课题,且处于迅速发展之中;其研究成果具有重要的学术及应用价值。 该门课程的教学要求: 大纲:选修课 考查(考试方式) 1. 语音信号处理技术的应用 2. 语音信号处理技术的发展概况 §1. 1 语音信号处理技术的应用 语音是人类最重要、最有效、最常用和最方便的交换信息的方式;让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法;语音信号处理技术始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展。 下面介绍语音信号处理技术的广泛应用。 (1)语音编码(语音压缩编码、语音压缩) 必要性:数字化语音信号的存储要占用一定的空间,传输要占用一定的带宽。为了节省空间和带宽需要对语音信号进行压缩编码。 如果只按照传统的模数转换技术对语音信号进行数字化,那就必须传输或存储大量的数据。假定采样速率为8kHz,对每个样本进行16位A/D转换,那么每秒的语音数据量将达到128kbps。这么高的位率通常是不允许的,必须对其进行压缩。 发展现状:自从30年代末提出脉冲编码调制(PCM)原理以及声码器的概念后,语音编码一直沿着两个方向发展:语音信号波形编码与声码化编码,或者是非参数化编码与参数化编码。参数编码有时也称为模型编码。 1)波形编码 语音信号波形编码的特点是:力图使重建的语音波形保持原始语音信号的波形形状。这类编码器通常将语音信号当作一般的波形信号来处理,具有适应能力强、话音质量好等优点,但是所需要的编码速率高。如:PCM、增量调制、自适应增量调制等。 2)参数编码 参数编码通过对语音信号特征参数的提取及编码,力图使重建的语音信号具有尽可能高的可懂度,即保持原语音的语意,但是重建信号的波形同原语音信号的波形相比可能会有相当大的差别。参数编码的主要问题是:合成语音质量低,自然度较差,有时甚至连连熟人也不一定能听出讲话人是谁。另外,这类编码器对讲话的环境噪声比较敏感,需要安静的讲话环境才能给出较高的可懂度。如:线性预测声码器等。 3)混合编码 混合编码克服了原有波形编码与参数编码的弱点,结合了它们各自的长处,在4~16kbps速率上能够得到质量比较好的合成语音,在本质上具有波形编码的优点。 如:多脉冲激励线性预测编码、规则脉冲激励线性预测编码、码本激励线性预测编码等。 应用:带宽受限信道的数字话音传输(蜂窝移动通信、卫星通信等)、可视电话、语音的数字存储、呼叫服务(数字录音电话、语音信箱等); 方向:低码率高质量的音频编码技术和算法。语音压缩通常根据实际应用情况,进行三方面的均衡,即位率、质量和清晰度、编解码算法的复杂度。例如,有的数字语音录放系统对编码器实时性要求不高,但希望有较高的压缩效率,以降低所需存储器的容量;对于解码器,则要求算法尽量简单、成本低,并能够实时或基本实时解码;数字通信系统则要求能够实时编解码。 (2)语音识别 作用:将语音转换成等价的书面信息,即让计算机听懂人说话。语音识别是建立计算机听觉系统的基础,它使得任何计算机之间利用自然语言进行通信成为可能。 语音识别的一般过程: 在训练阶段,用户将词汇表中的每个词依次说一遍,语音分析单元对输入语音进行分析,并将其特征矢量序列作为模板存入模板库。 在识别阶段,将对输入语音分析得到的特征序列与模板库中的每一个模板相匹配比较,将相似度最高者作为识别结果输出。 (3)说话人识别 根据语音辨别说话人。 说话人识别分为训练阶段和识别阶段。这两个阶段都必须根据说话人的特征建立模型进行识别。 根据判决模式不同可以将说话人识别分为说话人辨识和说话人确认两类。根据对训练和测试语音内容的要求不同,还可以将说话人识别分为固定文本的说话人识别和任意文本的说话人识别。 说话人识别和语音识别比较 同:都是语音信号处理技术同计算机技术相结合的产物;都是应用机器设备(主体是计算机)来模仿人对语音的感知和处理能力; 都是基本的模式识别问题;都可以分为训练与测试两个阶段,训练时提取出某些语音特征,建立相应的模型,测试时提取出相同的语音特征,再根据一定的相似性准则作出判断;两者有时采用相同的语音特征。 异:(l)对于说话人识别,语音信号在特征空间中是按照说话人来划分的,而语音识别是按照单词或句子划分的。(2)说话人识别是想要挖掘出包含在语音信号中的有关说话人的个性因素,力图强调不同人之间的差别;而语音识别则是想要得到语音信号的语义内容,而忽略掉不同说话人的个性因素。两者差异体现在语音特征和建模方法的选择上。 (4)语音合成

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档