如果电脑说话的声音真的与人类一模一样.pdf

下载文档

5
0
约4.13千字
约 5页
2017-06-26 发布于湖北
举报
版权申诉
保障服务

如果电脑说话的声音真的与人类一模一样.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

如如果果电电脑脑说说话话的的声声音音真真的的和和人人类类一一模模一一样样电脑说话的声音和人类能有多像？ 2009 年，一个六人组成的 IBM 团队遇到这个问题。该团队由语言学家、工程师和营销人员构成，他们当时正开始为该公司准备参加《Jeopardy ！》节目（哥伦比亚广播公司益智问答游戏节目，已有数十年历史——译者注）的人工智能程序 Watson 设计一种能将文字转化成语音的功能。十八个月后，这个团队精心合成出一种声音。这个声音听起来不太像人类，但是也不像电影《2001太空漫游》（2001: A Space Odyssey）里人工智能电脑 HAL 9000 那样呆板空洞。Watson 系统用这个声音说出自己的答案，在饱受关注的《Jeopardy ！》节目中击败历史上胜率最高的两位人类选手。电脑的便携性越来越高，而用户也越来越忙碌，需要更多地使用语音交互与电脑进行互动。在这样的背景下，当下越来越多软件设计师要面对一个挑战：为电脑创造“性格”。如今的机器可以聆听、理解并说话，这不仅仅是电脑和智能手机才具备的功能。我们日常生活中的很多事物都具备语音功能，比如汽车和玩具。当然智能家电也能说话，比如居家陪伴型机器人 Pepper 和 Ji o，还有亚马逊 Echo 项目中的智能播放器 Alexa。我们所谓的“对话代理” （conversational agents）是一种可以理解自然语言和人类言语的软件程序，它能够响应人类的语音命令。在打造这个软件系统的过程中，一个新的设计科学渐渐形成。人机交互设计领域的研究人员在打造“对话代理”软件程序的过程中发挥主导作用。不过打造这个程序的过程更像是一门艺术，而不是一门科学。我们为电脑打造计算机化的声音，使它能够以与人类相似的声音读出短语和词组。有这个功能，电脑就能播放天气预报或者在为汽车导航时与用户交流。然而当电脑在朗读比短语词组长的句子时，我们还无法保证它的声音听上去与人类正常声音别无二致。大多数软件设计师承认，他们现在依旧面临一个困难：如何跨越“恐怖谷” （uncanny valley）。恐怖谷理论认为，电脑程序具备的几乎与人类非常相似的声音反而会令我们感到烦扰和刺耳。“恐怖谷”这个词由日本机器人专家森政弘（Masahiro Mori）在 1970 年提出。他发现在图形动画越来越像人类的过程中，有一个时间点上人们会觉得这些类人化的东西惊恐且怪异。这之后人们才会对其进行改进，使其与人类影像一模一样。这个过程也适用于让电脑说话这件事。 ToyTalk 是旧金山的一家技术公司，主要为类似于芭比娃娃这样的物品打造数字化语音。该公司高级语音科学家布莱恩·兰纳（Brian Langner ）表示：“我愿意让数字化声音显得有些刺耳且不和谐。人们的要求总是很高，当机器能做好一些事情时，他们常常就会希望机器可以完美地处理所有事情。” 除正确发音之外，让电脑学会说话还要解决另一个更艰巨的挑战：在电脑语音中加入类似音调变化和情绪这样人类才具有的特征。语言学家称之为“韵律”，也就是能在发音过程中正确使用强调、语调和感情的能力。即便取得不少成绩，但是今天我们依旧无法让人工智能程序在发音时完整无误地呈现出句子背后的情绪。第一个实验性研究采用机器学习算法，还利用大量充满人类感情语音的数据库。目前研究刚刚有些成果，可供语音科学家进行分析和探讨。 IBM的的寻寻找找 Watson 声声音音之之旅旅 2009 年，IBM 公司一个由六人组成的团队开始为人工智能程序 Watson 寻找合适的声音。数月之后，Watson 在宣传铺天盖地的益智问答游戏节目《Jeopardy!》中用研究人员精心合成的声音作答，成功战胜该节目历史上胜率最高的两位人类选手。你可以在原文中听到 Watson 的四段音频。打造合成语音的方式有很多种。想要保证合成语音听起来自然顺畅，质量最高的一种技术是利用人类的声音。研究人员要对人类语音进行录音，记录下人类以多种方式说话过程中的句子细微构成，然后形成多个数据库。一个献声的配音人员要花费至少十到上百个小时的时间，才能为一个数据库完成录音。在 2013 年的科幻电影《她》（Her ）中，我们能看到为声音加入无形情感元素的重要性和难度。在这部电影里，杰昆·菲尼克斯（Joaquin Phoenix）扮演的孤独的办公室职员爱上萨曼莎（Samantha），一个先进电脑操作系统的合