高教社2025人工智能与未来教学课件6.5语音合成.pptxVIP

下载本文档

0
0
约1.74千字
约 16页
2025-12-28 发布于广东
举报
版权申诉

高教社2025人工智能与未来教学课件6.5语音合成.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

NaturalLanguageProcessing第6章自然语言处理2035陈勇斌

目录CONTENTS6.16.26.36.4自然语言处理那些事自然语言处理概述语音识别自然语言理解6.506语音合成6.6扩展：机器翻译

6.5.1什么是语音合成6.5.2语音合成原理

6.5.1什么是语音合成前面我们介绍了计算机如何听懂人类所说的话和计算机如何正确理解人类所说的话。在此基础上，为使计算机能更好地与人类进行交流和沟通，本节要讨论的是如何让计算机学说人类的话。我们将这一过程称为语音合成。

6.5.1什么是语音合成语音合成的应用非常广泛，例如，在驾车导航的时候，我们常常听到这样的声音：“前方500米右转”。过一会，这个声音又会出现：“前方出现交通事故，请小心驾驶，注意保持安全车距。”这些声音都是计算机通过语音合成技术产生并进行播送的。

6.5.1什么是语音合成语音合成，也称为文语转换（TexttoSpeech,简称TTS）技术。其本质上解决的是“从文本转化为语音的问题”。给计算机一段文字，语音合成技术就可以将其转换为人类的说话声。

6.5.1什么是语音合成随着人工智能技术的不断发展，语音合成技术也在不断进步。现在的语音合成系统已经能够模拟出更加自然、逼真的语音效果，包括不同的语调、语速和音色等，使得计算机生成的语音越来越接近人类真实的声音。这种技术的广泛应用和不断发展，为人们的生活带来更多便利和创新体验。

6.5.2语音合成原理让计算机实现说人类语言其实并不容易，因此，研究者将计算机学说人类语言的过程分为前端和后端。前端主要负责把输入的文本转化为一个中间结果，然后把这个中间结果反馈给后端，由后端经过加工形成相应的声音。

1.前端小时候我们在认字之前需要先学习拼音，有了拼音，我们就可以用它去拼读我们不认识的字。对于TTS来说，前端系统从文本转化出的中间结果就好像是拼音。不过，光有拼音还不行，如果一个人说话的时候不能正确的使用抑扬顿挫的语调来控制自己说话的节奏，就会让人听着不舒服，甚至误解说话人想要传达的意思。所以前端还需要加上这种抑扬顿挫的信息来告诉后端怎么正确的“说话”。

1.前端我们将这种抑扬顿挫的信息称之为韵律。韵律是一个非常综合的信息，为了简化问题，韵律又被分解成了如停顿，重读等信息。停顿就是告诉后端在句子的朗读中应该怎么停，重读就是在朗读的时候应该着重强调哪一部分。这些所有的信息综合到一起，叫做“语言规格书”。前端就像一个语言学家，把给它的纯文本做各种各样的分析，然后给后端开出一份规格书，告诉后端应该合成什么样的声音。

1.前端语言规格书（部分内容）在实际的系统中，为了让机器能正确的说话，这份语言规格书远远比我们这里描述的要复杂。

2.后端波形拼接后端要让计算机说话，主要是根据前端生成的“语言规格书”来生成符合该规格书里描述的声音。目前主流的后端技术主要有基于波形拼接的方法和基于参数生成的方法

2.后端基于波形拼接的方法就是把事先录制好的音频存储在电脑上，当我们要合成声音的时候，就可根据前端开出的“语言规格书”，在这些音频里去寻找那些最适合该规格书的音频片段，然后把片段一个一个拼接起来形成最终的合成语音。比如：我们想要合成“你真好看”这句话，我们就会从数据库里去寻找“你、真、好、看“”这四个字的音频片段，然后把这四个片段拼接起来，如上图所示。基于参数生成的方法此处不再介绍。

学习通讨论：AI语音克隆：便利还是隐患？AI语音克隆技术带来了诸多便利：智能音箱、导航系统中提供个性化语音交互体验；还能用于语音合成与修复，帮助无法说话或声音受损的人群，并保存修复受损的历史声音资料等；同时，该技术也为娱乐产业开辟了新的创意空间，如模拟名人声音进行配音、演讲，为观众带来全新听觉享受。但也存在不少隐患：进行诈骗或恶意攻击，引发了诸多伦理和法律问题，如克隆声音的使用是否需原声音主人同意，以及如何界定合法与非法的语音克隆行为等，亟待规范和解决。

ArtificialIntelligenceandFuture人工智能与未来2035主讲：陈勇斌

您可能关注的文档

文档评论（0）

allen734901 + 关注: 实名认证

文档贡献者

副教授持证人

知识共享

咨询Ta 进入空间

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

更多 >

高教社2025人工智能与未来教学课件6.5语音合成.pptxVIP