语音人机交互.ppt

下载文档 降价啦

30
0
约4.57千字
约 35页
2016-06-26 发布于湖北
举报
版权申诉
保障服务

语音人机交互.ppt

1、本文档共35页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

韵律生成有基于规则和基于语料库的数据驱动两种方法（1）基于规则的方法音高规则变调规则轻声规则协同发音音长规则能量规则（2）基于数据驱动的韵律模型(人工神经网络方法,统计方法) 基于大规模语料库的韵律建模: 通过神经网络或统计驱动的方法进行韵律生成, 其实现步骤是首先设计或收集包含大量语音和文本信息的数据，然后建立一个训练模型，用数据库中提取出的韵律参数对模型进行训练，通过训练而得到最终的韵律模型。语音生成根据韵律建模的结果，从原始音库中取出相应的语音基元，利用特定的语音合成技术对语音基元进行韵律特性的调整和修改，最终合成出符合要求的语音。语音生成主要方法规则合成按韵律规则,缩减规则等,将预先存好的语音单元拼接起来.需要对文本理解,有些复杂. 参数合成（1）共振峰合成(Pitch Synchronous OverLap Add) （2）LPC（线性预测编码）合成（3）其它如LSP和LMA合成波形拼接（1）PSOLA（基音同步叠加）合成提高语音合成的自然度，达到更加流利和自然的程度。丰富合成语音的表现力，使得TTS技术可以实现各种音色(包括不同性别、不同年龄等)的语音输出。解决中文与其它语种混读问题。实现多语种的语音合成，即实现方言、少数民族语言的合成技术。降低语音合成技术的复杂度，减少音库容量，扩大应用领域。情感语音合成技术。为各行业提供TTS核心技术和解决方案，特别是CTI和嵌入式系统语音合成的未来发展方向 * 语音人机交互应用程序语音合成语音输入语音输出语音人机交互语音识别自然语言处理自然语言生成交互管理语音识别技术定义：语音识别是机器自动语音识别（Automatic Speech Recognition by Machine）的简称。语音识别是一种将人讲话发出的语音通信声波识别（转换）成为一种能够表达通信消息的符号序列。这些符号可以是识别系统的词汇本身，也可以是识别系统词汇的组成单元，在专业文献中常常称为识别系统的基元或子词基元。国外语音识别研究的历史语音识别的研究工作大约开始于五十年代，当时AT T Bell实验室实现了第一个可识别十个英文数字的语音识别系统—Audry系统。六十一年代，计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP)，而后者较好地解决了语音信号模型的问题，对语音识别的发展产生了深远影响。七十年代，语音识别领域取得了突破。在理论上，LP技术得到进一步发展，动态时间规整技术(DTW)基本成熟，特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上，实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统. 我国的语音识别技术的发展 (1)在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外，还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。 (2)现在，国内有不少语音识别系统已研制成功。这些系统的性能各具特色。 - 在孤立字大词汇量语音识别方面，最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。 - 在连续语音识别方面，91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。 - 在非特定人语音识别方面，有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。语音识别系统的分类方式及依据根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。根据对说话人说话方式的要求，可以分为孤立字（词）语音识别系统，连接字语音识别系统以及连续语音识别系统。根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。语音识别的几种基本方法一般来说，语音识别的方法有三种：（1）基于声道模型和语音知识的方法（2）模式匹配方法（3）人工神经网络方法基于声道模型和语音知识的方法基于声道模型和语音知识的方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。模式匹配方法模式匹配常用的技术有动态时间规整（DTW）和矢量量化（VQ）；统计型模型方法常见的是隐马尔可夫模型；语音识别常用的神经网络有反向传播（BP）网络，径向基函数网络（RBF）及新兴的小波网络。人工神经网络关于神经网络在语音信号处理中的应用研究十分活跃，其中以在语音识别方面的应用最令人瞩目。目前，主要是从听觉神经模型中得到启发，以便构成一些具有类似