技术分享从微软智能语音合成到智能有声内容创作.pdfVIP

下载本文档

0
0
约3.08千字
约 2页
2023-08-09 发布于上海
举报
版权申诉

技术分享从微软智能语音合成到智能有声内容创作.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

技术分享从微软智能语⾳合成到智能有声内容创作（本⽂阅读时间：9分钟）随着⼈⼯智能时代的到来，语⾳服务重要性不断凸显，微软在不断探索突破智能语⾳极限，加快从研发到产品的落地，希望以科技⼒量赋能更多⼈和组织。语⾳技术最新进展视频：媲美专业发⾳⼈的智能语⾳系统微软在智能语⾳领域已深耕长达⼆⼗余年。智能语⾳作为⼈⼯智能的核⼼技术之⼀，早已融⼊于微软全球产品，这其中包括 Windows 朗读、 Skype、Office 等产品，并随着微软云认知服务（CognitiveServices）的推出，形成⾯向开发者和合作伙伴的开放平台体系，提供强⼤⽽灵活的语⾳服务。近年来，结合深度神经⽹络技术的不断创新，微软智能语⾳合成（Text-To-Speech，TTS）技术取得了诸多突破性进展。2018年12⽉，微软率先在全球范围内推出端到端的深度神经⽹络语⾳合成服务，使计算机和智能设备拥有了媲美真⼈的⼈⼯智能声⾳。在探索提升语⾳⾃然度的同时，微软语⾳合成技术也不断挖掘语⾳的表现⼒、丰富度和智能度。通过多情感、多⾓⾊和情感强度可调节等技术升级，微软智能语⾳极⼤程度地丰富了合成语⾳的风格。更进⼀步，为了⼤⼤降低有声内容的创作成本，微软针对复杂长⽂本，提供了智能情感和⾓⾊的预测功能，让 AI 语⾳具有更强的理解⼒，让有声内容创作变得轻松⼜便捷。具体⽽⾔，智能语⾳多情感技术创造性地从⼈类语⾳中挖掘出情感语⾳特征，赋予了合成语⾳拟⼈的表现⼒，让合成语⾳不仅可以根据不同场景进⾏变化，也有了 “ ⾃⼰的喜怒哀乐”。声⾳因此更富有表现⼒，不仅得以更贴切地表达⽂字内容，也让语⾳更容易理解、更⽣动。譬如，中⽂晓晓的声⾳已达到14种情感风格，可以⽤ “抒情”、“新闻”、“聊天”等不同风格来演绎不同使⽤场景下的作品，也可以⽤ “开⼼”、“悲伤”、“⽣⽓”、“恐惧”等多样情感在对话中表达不同的情绪和态度。⼈的情绪就好⽐是⾊谱，⾊谱的颜⾊从深到浅，⼈的情绪也⼀样，有从强到弱的变化。微软智能语⾳情感强度可调节技术，可以加强或者减弱情感强度，让情绪的表达更加细腻，从⽽⼤⼤扩展了情感矩阵，丰富了多情感语⾳的表达；在实际的⼈与⼈对话中，情感的变化是微妙的，通过情感程度可控技术，可以让⼈⼯智能对话或聊天机器⼈变得更流畅、真实，⼈设也更加统⼀。微软智能语⾳提供众多声⾳⾓⾊供⽤户选择，覆盖不同的年龄、性别和个性特征，其中⼀些声⾳还可以扮演不同⾓⾊，⽐如男声演绎⼥声、年轻声⾳扮演年⽼声⾳等。通过微软⾼质量的声⾳家族，⽤户可以挑选更符合实际场景的不同⾳⾊，满⾜⾃然的对话需求，也可以创作更有趣的多播剧。⼤⼤扩展了有声内容的创作空间。为了让每个⼈都可以轻松创作有声内容，微软提供了⼀套智能有声内容创作⼯具平台。输⼊⽂本后，⼯具可以先针对⾓⾊和情绪进⾏预测，然后选择合适的声⾳进⾏演绎。创作者可以对声⾳、情感、韵律、发⾳等进⾏调优，创造出不⼀样的有声内容。作为情感的延伸，唱歌是⼈类表达情感的重要⽅式。微软语⾳也在基于神经⽹络的唱歌技能上取得了突破。微软⼈⼯智能语⾳晓晓和朱婧汐⼀起合唱⾼难度的《⼈类零件》歌曲，展⽰了中英双语演唱以及说唱能⼒，合成效果逼真⾃然。微软云拥有全球覆盖最多的数据中⼼，其认知服务智能语⾳技术⾯向全球市场，覆盖语⾔数量世界领先。⽬前，微软的语⾳合成⽀持54个国家和地区的语⾔，提供超过150个声⾳供选择。微软语⾳⽀持深度品牌定制基于客户提供的声⾳数据，微软可以实现“细粒度”的定制，包括语⾳合成的⾳⾊、说话的风格、特殊的发⾳需求甚⾄演唱等特⾊功能等。在使⽤⽅⾯，微软语⾳也相当灵活，不仅服务于云平台，也⽀持本地化和离线部署等多种场景。微软云计算与⼈⼯智能事业部资深产品总监丁秉公认为，个性化时代，声⾳即品牌。微软的语⾳合成技术可以为企业定制丰富的⾳⾊，实现品牌价值的最⼤化。 2019年11⽉，微软推出了基于深度神经⽹络语⾳合成技术的声⾳定制服务（Custom Neural Voice）平台，将⾼质量的语⾳合成引擎开放给第三⽅，使得微软合作伙伴和客户可以通过简单的⾃助服务定制有标识度和个性化的声⾳。微软语⾳定制涵盖了从声⾳画像的设计、到数据的收集和整理、模型的优化和系统部署的⽅⽅⾯⾯。⽤户更可以通过 CustomVoice 声⾳定制平台实现⼀键定制的⾃助服务。传统技术定制的语⾳模型，由于需要发⾳⼈录制成千上万句话，需要耗费⼏个⽉的时间，成本巨⼤。⽽微软基于深度神经⽹络技术的定制化语⾳，可以⽤更少的数据达到更加⾼拟⼈度和⾃然真实的效果。通过微软语⾳涵盖超过50个语⾔的 UNI-TTS 基础