语音人机交互.ppt

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * 第4章 人机主要交互技术 (新一代人机交互技术) 应用程序 语音 合成 语音 输入 语音 输出 语音人机交互 语音 识别 自然语言 处理 自然语言 生成 交互管理 语音合成 语音合成技术是使电脑或通信终端具有类似于人一样的说话能力的一项技术 让机器说话可以通过录音/重放,或语音合成实现 文语转换是语音合成的一种应用形式 文语转换是连续语音识别的逆过程 孤立词/音段阶段,注重音色(音质,音品) 语音合成的最早研究始于1779年Kratzen sten的研究.他用一些材料制成具有各种特殊形状的共鸣腔, 目的是研究如何用管形器官模型来模拟5个单元音 A、E 、 I、0、U 1791年,Von Kempelen制成了一种能说话的机器 1939年, BELL LAB的H.Dudley应用共振峰原理制作了第一个电子合成器VODER(VOice DEmonstratoR). 20世纪70年代,线性预测技术用于语音合成 语句阶段,注重韵律 1980年,MIT的D.Klatt设计制造了著名的共振峰语音合成器 1986年,E.Moulines和F.Charpentier提出了基于时域波形修改的语音合成算法PSOLA 2000s,Unit-selection,N. Campbell A. Black 国外语音合成的发展 按照人类语言功能的不同层次,语音合成可分为三个层次: (1)从文字到语音的合成(Text-to-Speech) (2)从概念到语音的合成(Concept-to-Speech) (3)从意向到语音的合成(Intention-to-Speech) 语音合成的层次 文本 文本分析 输出语音 语音合成 语音库 韵律分析 字典/词库 分词规则 文语转换系统组成 多音字库 儿化音库 语音 合成技术 语言学 处理规则 协同发音/ 韵律规则 语音合成系统的三个主要组成部分: 文本分析模块 韵律分析模块 语音生成模块 文本分析主要功能 使计算机从这些文本中能够认识文字,从而知道要发什么音、怎么发音(声调),并将发音的方式告诉计算机,另外还要让计算机知道文本中,哪些是词,哪些是短语、句子,发音时到哪应该停顿,停顿多长等等 文本规整 多音字处理 声调判定 特殊声调调整 特殊符号 停顿处理 语音处理 自动分词 系统词库 多音字词库 变调规则库 特殊声调 规则 文本分析的任务 (1)文本规整 将输入的文本规范化。在这个过程中,要查找拼写错误,处理缩略语与外文字词等,同时分析文本中出现的数字、特殊字符、专有词语, 并将文本中出现的一些不规范或无法发音的字符过滤掉。 (2)词的切分和词法分析 分析文本中词或短语的边界,确定文字的读音,以及各种多音字的读音方式。 文本分析的主要工作步骤 (3)语法和语义分析 根据文本的结构、组成和不同位置上出现的标点符号,确定语气的变换以及不同音的轻重方式,即语言学处理。确定停顿位置,长短,语调升降,语法重音等 (4) 输出 文本分析模块将输入的文字转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。 文本分析的主要工作步骤 文本分析的主要方法/词的切分方法 (1)基于规则的方法 (2)基于统计的方法 (3)人工神经网络的方法 基于规则(Rule-based)的方法 正向最大匹配法、 反向最大匹配法、 逐词遍历法. 最佳匹配法、 二次扫描法等等。 基于规则方法的特点 优点:结构较为简单、直观,易于实现。 缺点:需要大量的时间去总结规则,且模块性能的好坏严重依赖于设计人员的经验以及他们的相应的背景知识。 应用:这些方法能够取得较好的分析效果,直到目前,这些方法依然被广泛的使用。 基于统计与人工神经网络的方法 (连续语音识别的逆过程,语言模型部分) 基于数据驱动的文本分析方法 具有代表性的有:二元文法法(Di—Grammar Method)、三元文法法(Tri-Grammar Method)、隐马儿可夫模型法和神经网络法等等。 韵律分析 任何人说话都有韵律特征,比如汉语中,人说话有语调、节奏、重音等变化,反映出不同的语气、不同的发音长短、不同的停顿方式等. 韵律参数包括了能影响这些特征的声学参数,如:基频、音长、音强等.为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然。 韵律生成有基于规则和基于语料库的数据驱动两种方法 (1)基于规则的方法 音高规则 变调规则 轻声规则 协同发音 音长规则 能量规则 两点说明 要求有大量的音韵学知识。 基于规则的方法,仍然被认作是行之有效的方法。目前大部分汉语的语音合成系统依然采用这种方法。 (2)基于数据驱动的韵律模型(人工神经网络方法,

文档评论(0)

wendan118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档