语音人机交互资料.ppt

下载文档 降价啦

3
0
约2.23千字
约 35页
2016-07-27 发布于湖北
举报
版权申诉
保障服务

语音人机交互资料.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语音人机交互;应用程序;语音识别技术;国外语音识别研究的历史;我国的语音识别技术的发展; 语音识别系统的分类方式及依据 ;语音识别的几种基本方法;基于声道模型和语音知识的方法;模式匹配方法;人工神经网络;语音识别系统的结构;语音识别所面临的问题;;;语音识别技术的应用和前景;;语音合成;孤立词/音段阶段，注重音色(音质,音品) 语音合成的最早研究始于1779年Kratzen sten的研究．他用一些材料制成具有各种特殊形状的共鸣腔，目的是研究如何用管形器官模型来模拟5个单元音 A、E 、 I、0、U 1791年，Von Kempelen制成了一种能说话的机器 1939年, BELL LAB的H.Dudley应用共振峰原理制作了第一个电子合成器VODER(VOice DEmonstratoR). 20世纪70年代,线性预测技术用于语音合成语句阶段，注重韵律 1980年,MIT的D.Klatt设计制造了著名的共振峰语音合成器 1986年,E.Moulines和F.Charpentier提出了基于时域波形修改的语音合成算法PSOLA 2000s，Unit-selection，N. Campbell A. Black ; 按照人类语言功能的不同层次，语音合成可分为三个层次：（1）从文字到语音的合成（Text-to-Speech) （2）从概念到语音的合成（Concept-to-Speech) （3）从意向到语音的合成（Intention-to-Speech) ;;语音合成系统的三个主要组成部分：文本分析模块韵律分析模块语音生成模块;文本分析主要功能使计算机从这些文本中能够认识文字，从而知道要发什么音、怎么发音(声调)，并将发音的方式告诉计算机，另外还要让计算机知道文本中，哪些是词，哪些是短语、句子，发音时到哪应该停顿，停顿多长等等 ;文本规整;(1)文本规整将输入的文本规范化。在这个过程中，要查找拼写错误，处理缩略语与外文字词等,同时分析文本中出现的数字、特殊字符、专有词语, 并将文本中出现的一些不规范或无法发音的字符过滤掉。 (2)词的切分和词法分析分析文本中词或短语的边界，确定文字的读音，以及各种多音字的读音方式。 ;(3)语法和语义分析根据文本的结构、组成和不同位置上出现的标点符号，确定语气的变换以及不同音的轻重方式,即语言学处理。确定停顿位置,长短,语调升降,语法重音等 (4) 输出文本分析模块将输入的文字转换成计算机能够处理的内部参数，便于后续模块进一步处理并生成相应的信息。;文本分析的主要方法/词的切分方法（1）基于规则的方法（2）基于统计的方法（3）人工神经网络的方法 ;基于规则(Rule-based)的方法正向最大匹配法、反向最大匹配法、逐词遍历法．最佳匹配法、二次扫描法等等。 ;基于规则方法的特点优点:结构较为简单、直观，易于实现。缺点:需要大量的时间去总结规则，且模块性能的好坏严重依赖于设计人员的经验以及他们的相应的背景知识。应用:这些方法能够取得较好的分析效果，直到目前，这些方法依然被广泛的使用。;基于统计与人工神经网络的方法 (连续语音识别的逆过程,语言模型部分) 基于数据驱动的文本分析方法具有代表性的有：二元文法法(Di—Grammar Method)、三元文法法(Tri-Grammar Method)、隐马儿可夫模型法和神经网络法等等。 ;韵律分析任何人说话都有韵律特征，比如汉语中，人说话有语调、节奏、重音等变化,反映出不同的语气、不同的发音长短、不同的停顿方式等. 韵律参数包括了能影响这些特征的声学参数，如：基频、音长、音强等.为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。 ; 韵律生成有基于规则和基于语料库的数据驱动两种方法（1）基于规则的方法音高规则变调规则轻声规则协同发音音长规则能量规则;（2）基于数据驱动的韵律模型(人工神经网络方法,统计方法) 基于大规模语料库的韵律建模: 通过神经网络或统计驱动的方法进行韵律生成, 其实现步骤是首先设计或收集包含大量语音和文本信息的数据，然后建立一个训练模型，用数据库中提取出的韵律参数对模型进行训练，通过训练而得到最终的韵律模型。 ;语音生成根据韵律建模的结果，从原始音库中取出相应的语音基元，利用特定的语音合成技术对语音基元进行韵律特性的调整和修改，最终合成出符合要求的语音。;语音生成主要方法规则合成按韵律规则,缩减规则等,将预先存好的语音单元拼接起来.需要对文本理解,有些复杂. 参数合成（1）共振峰合成(Pitch Synchronous OverLap Add) （2）LPC（线性预测编码）合成（