DAY1.5MPEG简介及MPEG声音.pptVIP

下载本文档

2
0
约2.51万字
约 101页
2018-04-13 发布于河北
举报
版权申诉

DAY1.5MPEG简介及MPEG声音.ppt

1、本文档共101页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DAY1.5MPEG简介及MPEG声音

第九章 MPEG声音 1. MIDI合成声音 MIDI是1983年制定的乐器和计算机的标准语言，是一套指令即命令的约定，它指示乐器即MIDI设备要做什么和怎么做，如播放音符、加大音量、生成音响效果等。MIDI不是声音信号，在MIDI电缆上传送的不是声音，而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。由于MIDI具有控制设备的功能，因此它不仅用于乐器，而且越来越多的应用正在被发掘。第九章 MPEG声音 2. 文-语转换文-语转换是将文本形式的信息转换成自然语音的一种技术，其最终目标是使计算机输出清晰而又自然的声音，也就是说，要使计算机像人一样，根据文本的内容可带各种情调来朗读任意的文本。TTS是一个十分复杂的系统，涉及到语言学、语音学、信号处理、人工智能等诸多的学科。目前的TTS系统一般能够较为准确清晰地朗读文本，但是不太自然。TTS系统最根本的问题便在于它的自然度，自然度是衡量一个TTS系统好坏的最重要指标。人们是无法忍受与自然语音相差甚远的语音，自然度问题已经成为严重阻碍TTS系统的推广和应用的桎梏。第九章 MPEG声音 TTS系统的组成部分虚线左边的部分是文本分析部分，通过对输入文本进行词法分析、语法分析，甚至语义分析，从文本中抽取音素和韵律等发音信息。虚线右边的部分是语音合成部分，它使用从文本分析得到的发音信息去控制合成单元的谱特征(音色)和韵律特征(基频、时长和幅度)，送入声音合成器(软件或硬件)产生相应的语音输出。第九章 MPEG声音图9-24 TTS系统方框图第九章 MPEG声音在汉语TTS系统中，汉语语音的传统分析方法是将一个汉语的音节分为声母和韵母两部分。声母是音节开头的辅音，韵母是音节中声母以外的部分。声母不等同于辅音，韵母不等同于元音。另外，音调具有辨义功能，这也是汉语语音的一大特点。可以说，声母、韵母和声调是汉语语音的三要素。汉语的音节一般由声母、韵母和声调三部分组成。汉语有21个声母，39个韵母，4个声调。共能拼出400多个无调音节，1200多个有调音节。除个别情况外，一个汉字就是一个音节，但是一个音节往往对应多个汉字，这就是汉语中的多音字现象。汉字到其发音的转换一般可以借助一张一一对应的表来实现，但对多音字的读音，一般要依据它所在的词来第九章 MPEG声音判断，有的还要借助语法甚至语义分析，依据语义或者上下文来判断。在汉语TTS系统中，分词是基础，只有分词正确，才有可能正确地给多音字注音，正确地进行语法分析，获得正确的读音和韵律信息。在我国，许多高等院校和科研单位先后开展了对汉语TTS系统的的研究工作，并取得了可喜的成绩，但在合成声音的自然度方面还有一段漫长的路要走。清华大学计算机系“智能技术与系统国家重点实验室”在20世纪90年代末期也加强了对汉语TTS的研究工作，从语言学、语音学、信号处理和人工智能等方面进行综合研究，重点是提高汉语TTS系统输出的声音的自然度。第九章 MPEG声音 MPEG编码器的输入以12个样本为一组，每组样本经过时间-频率变换后进行一次比特分配并记录一个比例因子(scale factor)。比特分配信息告诉解码器每个样本由几位表示，比例因子用6比特表示，解码器使用这个6比特的比例因子乘逆量化器的每个输出样本值，以恢复被量化的子带值。比例因子的作用是充分利用量化器的量化范围，通过比特分配和比例因子相配合，可以表示动态范围超过120DB的样本。 1. 层1 层1和层2的比较详细的框图如图9-14所示。层1的子带是频带相等的子带，它的心理声学模型仅使用频域掩蔽特性。层1的“时间-频率多相滤波器组”使用类似于离散余弦变换DCT(discrete cosine transform)的分析滤波器组进行变换，以第九章 MPEG声音获得详细的信号频谱信息。根据信号的频率、强度和音调，滤波器组的输出可用来找出掩蔽阈值，然后组合每个子带的单个掩蔽阈值以形成全局的掩蔽阈值。使用这个阈值与子带中的最大信号进行比较，产生信掩比SMR之后再输入到“量化和编码器”。 “量化和编码器”首先检查每个子带的样本，找出这些样本中的最大绝对值，然后量化成6比特，该比特数称为比例因子(scale factor)。“量化和编码器”然后根据SMR确定每个子带的比特分配(bit allocation)，子带样本按照比特分配进行量化和编码。对被高度掩蔽的子带自然就不需要对它进行编码。第九章 MPEG声音 “数据流帧包装”按规定的帧格式进行包装，实际上就是一个多路复合器MUX。每帧包含：①用于同步和记录该帧信息的同步头，长度为32比特，结构如图9-16所示，②用于检查是否有错误的循环冗余码CRC(cyclic redundancy code)，长度