南京师范大学教育科学学院多媒体原理与技术课件第二章语音合成.ppt

下载文档

1
0
约4.38千字
约 30页
2019-05-13 发布于广东
举报
版权申诉
保障服务

南京师范大学教育科学学院多媒体原理与技术课件第二章语音合成.ppt

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Chapter Two Speech Synthesis Technology lecturer: Wei Wang Tel:Email: njnuwangwei@ Page: /mmt/ Chapter Two Speech Synthesis Technology 语音合成（Speech Synthesis）技术又称为TTS（Text To Speech文语转换）,it means after certain software and hardware conversion, speech is output by a computer or other phonetic system. And, at the same time, try to make the speech more comprehensible and natural. TTS System Structure Text Analysis The main function of text analysis is to enable computer to recognize from these text, and finally recognize the sound of the words, how to pronounce and to tell a computer of this pronunciation. On the other hand, it will decide the text participles, clauses, stage in order to make computers know what is word, phrase and sentence, and where should pause, pause long, etc. Working Process Three stages of working： Text standardization，将输入的文本规范化，在这个过程中处理用户可能的拼写错误，并将文本中出现的一些不规范或无法发音的字符过滤掉； Word segmentation，主要分析文本中的词或短语的边界，确定文字的读音，同时在这个过程中分析文本中出现的数字、姓氏、特殊字符以及各种多音字的读音方式； Syntactic analysis and semantic analysis，根据文本的结构、组成和不同位置出现的标点符号，来确定发音时语气的变换以及不同音的轻重方式。最终，文本分析模块将输入的文字转换成计算机能够处理的内部参数，便于后续模块进一步处理并生成相应的信息。 Common Algorithm The traditional text analysis:最大匹配法、反向最大匹配法、逐词遍历法、最佳匹配法、二次扫描法等等。 Machine Learning method Artificial network method Hidden Markov model method 韵律控制模块任何人说话都有韵律特征，比如汉语中，人说话有阴平、阳平、上声、去声、轻声五个声调，另外，人的话语有不同的语气、停顿方式，发音长短也各不相同，这些都属于韵律特征。而韵律参数则包括了能影响这些特征的声学参数，如：基频、音长、音强等。韵律参数对于控制合成语音的节奏、语气语调、情感等有重要意义，例如，对汉谱普通话来说，基频是和声调直接相关的物理参数。最终TTS系统能够用来进行声信号合成的具体韵律参数由韵律控制模块生成。韵律控制模块为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。超音段参数一个语音单元除了由元音和辅音按时间顺序排列的音段成分以外，还必须包括一定的超音段部分，否则这个音节就不能成为有区别意义的有声语言。基频、音长、音强是语音的三个超音段参数基频就是声音的高低，决定于声波的频率；音强就是声音的强弱，决定于声波的振幅；音长就是声音的长短，决定于发音体振动的时间。韵律生成的方法基于规则的方法基于机器学习的方法基于参数的方法基于规则的韵律生成通过对汉语语音学和语言学的研究总结一些通用的韵律规则，利用这些先验知识，可以建立一个基于规则的韵律生成系统。通常规则系统包括两个方面：一是通用规则，二是目标说话人的特定韵律规则。基于机器学习的韵律生成为能够发觉隐藏而且难以描述的韵律规则通常利用机器学习的方法来实现韵律的生成。常用的算法模型有Hidden Markov model、Network、SVM以及决策树等。基于参数化模型的韵律生成参数模型利用先验知识，先分析基频时长和语言

您可能关注的文档

文档评论（0）

ormition + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

南京师范大学教育科学学院多媒体原理与技术课件第二章语音合成.ppt