人工智能应用基础项目式教程项目7 让机器拥有“听觉感知”.pptx

下载文档

0
0
约6.91千字
约 58页
2025-05-14 发布于甘肃
举报
版权申诉
保障服务

人工智能应用基础项目式教程项目7 让机器拥有“听觉感知”.pptx

1、本文档共58页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

项目7让机器拥有“听觉感知”Powerpointdesign2025/5/13时间：Powerpoint

任务7.1文生音Powerpointdesign2025/5/13时间：Powerpoint

目

录任务描述01预备知识02实施过程03CONTENTS

01任务描述Powerpoint

01在线工具是文本转语音的一种便捷方式。用户只需将文本粘贴到工具中，选择合适的语言和音色，即可生成语音文件。常见的在线工具有记灵在线工具、TTSReader、Google文本转语音等。在线工具

手机应用程序提供文本转语音的功能，同时支持录音转换、语音识别等。常见的应用有录音转换宝、冬冬录音转文字、语音转文字专业版等。手机应用程序

桌面软件允许用户在电脑上进行文本到语音的转换，并提供更多自定义选项。例如全能文字转语音等。桌面软件

专业平台如华为云平台、阿里云平台等，提供更高级的语音合成服务，适用于各种场景和需求。01专业平台

微信小程序如“马力文案提取器”等，可以直接将文字转换为语音，方便快捷。微信小程序

02预备知识Powerpoint

前台：语言分析文本结构与语种判断：当需要合成的文本输入后，先要判断是什么语种，例如中文，英文，藏语，维语等，再根据对应语种的语法规则，把整段文字切分为单个的句子，并将切分好的句子传到后面的处理模块。文本标准化：在输入需要合成的文本中，有阿拉伯数字或字母，需要转化为文字。根据设置好的规则，使合成文本标准化。例如，“请问您是尾号为8967的机主吗？“8967”为阿拉伯数字，需要转化为汉字“八九六七”，这样便于进行文字标音等后续的工作；再如，对于数字的读法，刚才的“8967“为什么没有转化为”八千九百六十七“呢？因为在文本标准化的规则中，设定了”尾号为+数字“的格式规则，这种情况下数字按照这种方式播报。这就是文本标准化中设置的规则。文本转音素：在汉语的语音合成中，基本上是以拼音对文字标注的，所以我们需要把文字转化为相对应的拼音，但是有些字是多音字，怎么区分当前是哪个读音，就需要通过分词，词性句法分析，判断当前是哪个读音，并且是几声的音调。句读韵律预测：人类在语言表达的时候总是附带着语气与感情，TTS合成的音频是为了模仿真实的人声，所以需要对文本进行韵律预测，什么地方需要停顿，停顿多久，哪个字或者词语需要重读，哪个词需要轻读等，实现声音的高低曲折，抑扬顿挫。

后台：声学系统①波形拼接语音合成通过前期录制大量的音频，尽可能全的覆盖所有的音节音素，基于统计规则的大语料库拼接成对应的文本音频，所以波形拼接技术通过已有库中的音节进行拼接，实现语音合成的功能。一般此技术需要大量的录音，录音量越大，效果越好，一般做的好的音库，录音量在50小时以上。②参数语音合成技术参数合成技术主要是通过数学方法对已有录音进行频谱特性参数建模，构建文本序列映射到语音特征的映射关系，生成参数合成器。所以当输入一个文本时，先将文本序列映射出对应的音频特征，再通过声学模型（声码器）将音频特征转化为我们听得懂的声音。③端到端语音合成技术端到端语音合成技术是目前比较火的技术，通过神经网络学习的方法，实现直接输入文本或者注音字符，中间为黑盒部分，然后输出合成音频，对复杂的语言分析部分得到了极大的简化。所以端到端的语音合成技术，大大降低了对语言学知识的要求，且可以实现多种语言的语音合成，不再受语言学知识的限制。通过端到端合成的音频，效果得到的进一步的优化，声音更加贴近真人。

技术边界1）拟人化其实当前的TTS拟人化程度已经很高了，但是行业内的人一般都能听出来是否是合成的音频，因为合成音的整体韵律还是比真人要差很多，真人的声音是带有气息感和情感的，TTS合成的音频声音很逼近真人，但是在整体的韵律方面会显得很平稳，不会随着文本内容有大的起伏变化，单个字词可能还会有机械感。2）情绪化真人在说话的时候，可以察觉到当前情绪状态，在语言表达时，通过声音就可以知道这个人是否开心，或者沮丧，也会结合表达的内容传达具体的情绪状态。单个TTS音库是做不到，例如在读小说的时候，小说中会有很多的场景，不同的情绪，但是用TTS合成的音频，整体感情和情绪是比较平稳的，没有很大的起伏。目前优化的方式有两种，一是加上背景音乐，不同的场景用不同的背景音乐，淡化合成音的感情情绪，让背景音烘托氛围。二是制作多种情绪下的合成音库，可以在不同的场景调用不同的音库来合成音频。3）定制化当前我们听到语音合成厂商合成的音频时，整体效果还是不错的，很多客户会有定制化的需求，例如用自己企业职员的声音制作一个音库，想要达到和语音合成厂商一样的效果，这个是比较难的，目前语音合成厂商的录音员基本上都是专业的播音员，不是任

您可能关注的文档

文档评论（0）

dllkxy + 关注: 实名认证

内容提供者

本文库主要涉及建筑、教育等资料，有问题可以联系解决哦

咨询Ta 进入空间

用户编号：5213302032000001

1亿VIP精品文档

更多 >

人工智能应用基础项目式教程项目7 让机器拥有“听觉感知”.pptx