人工智能使读唇越来越精准.docVIP

下载本文档

8
0
约 6页
2017-06-13 发布于未知
举报
版权申诉

人工智能使读唇越来越精准.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人工智能使读唇越来越精准

人工智能使读唇越来越精准　　读唇破案匪夷所思读唇术是一种以视觉代替听觉的高超技能，在隔绝说话者话音的情况下，会读唇术的人依靠观看他们说话时的嘴唇动作，就能解读所说的内容。在国际上，读唇已经成为媒体爆料和案件举证的重要来源之一此前，英国皇家检察院雇佣著名的“读唇女王”杰西卡“无声证人”一度被视为该国司法界的“奇迹武器”，帮助法庭将至少包括谋杀犯、武装抢劫犯、恐怖分子和毒品大亨等在内的30名罪犯定罪关入监狱，其中5名是英国2002年“零证据”最大劫钞案（案值650万英镑）的罪犯杰西卡自幼失聪，却能通过读唇术理解别人的话语。她阅读唇语的能力如此娴熟高超，往往让人们很难发现是一位耳聋患者。在这位唇语解读者的视线之内，没有什么秘密可言。无论怎样的对话场景，哪怕是录像带中人的脸没有正对着摄像机，只要看到了对方的部分嘴唇，也能够通过读唇术破译出来。杰西卡从侧面、上面和下面各个角度，即使隔着40～50米远，也可以根据说话人的嘴唇动作读懂他们的话语内容，甚至连方言也难不倒她然而读唇这种独特的技艺学习起来非常困难，因为它对于语言语境和知识理解要求非常高。测试实验发现，大部分人在别人说话时，通过观看后者的嘴唇动作，只能辨别出10%的单词，即便是所谓的唇语专家，准确识别率也不够理想。像杰西卡这样的读唇术天才，真是凤毛麟角然而研究人员称，通过获取大量数据来寻找“共同点”的人工智能（Artificial Intelligence，以下简称AI）技术，能够大大提升音频语言的识别度，使读唇越来越精准，达到跟“面对面”对话一样的程度最近，谷歌旗下DeepMind AI团队与英国牛津大学合作，开发出迄今为止全球最先进最准确的AI“读唇”软件。为了实现超过人类读唇能力的目标，研究人员选取了BBC2010 年1月～2015 年12 月间的一系列电视节目，其中包括“新闻之夜”“英伦早晨”“提问时间”和“今日世界”等，然后上传到一个神经网络上，对其“读唇”软件进行训练，即根据主播嘴部运动来识别其播报内容 Deep Mind团队发现，人们在观看视频时，如果里面主人公说话的口型与声音不吻合，就会觉得很不舒服。这是音视频流不一致造成的结果。音视频流包括视频流与音频流，其中前者指视频数据的传输，后者指控制“数据流”同步类型音频的输出质量。为此，研究人员先让计算机学会完全同步的音视频流，掌握发音与唇形间的关联，进而自行推断音视频流中哪些画面是不同步的，再进行自动修正，从而避免了视频流与音频流不同步的障碍据统计，将选取的BBC所有的视频资料加起来，约有 11.8 万句话和1.75万个不同的单词。在经过了大约5000个小时的训练之后，掌握了读唇技术的AI“读唇”软件正式开启了读唇功能。在后来进行的读唇对比测试中，从2016 年3 月～9 月的节目库中随机选取出 200 种说话场景，要求对电视节目嘉宾进行唇语解读。结果很令人震惊，AI“读唇”软件的完全准确率为46.8%，而专业的唇语专家在接受同样的测试时准确率仅为12.4%。它不仅迅速掌握了读唇术，而且还比唇读专家做得好，一些媒体将其评为2016年10大科技之一不久前，牛津大学AI实验室的研究人员也使用深度学习技术，开发出了一种名为“LipNet”的AI“读唇”软件。在将视频中人物的嘴部运动与其台词进行匹配时，它的“表现”远远胜过了唇语解读者。虽然现在还处在初期阶段，但这款软件几乎达到了一种能够“实时”将静音视频转化为文本脚本的处理速度研究人员选用了一组数据库，用它对“LipNet”AI“读唇”软件进行训练和测试。测试中，研究人员收集了来自34名志愿者事先录制好的短视频。在视频中，他们读取的是一些“毫无意义”的句子（比如插图说明）。每个短视频只有3秒长，并且每个句子都采用非常简单的句式结构：命令动词+颜色+介词+字母+数字+副词，没有任何复杂的事件背景可言，测试视频当中的特殊词汇只有51个。但从事这项研究的科学家雅尼斯阿萨尔指出：“LipNet’AI‘读唇软件的测试结果令人满意，能够在更大的数据库中表现出色。” 这款“读唇”软件可以帮助那些听力受损的人群，尤其是在一个比较吵闹的环境（也就是计算机很难分离出噪音的环境）。他们可以佩戴内置摄像头的眼镜，在参加聚会的时候清楚地拍摄到目标人物说话时嘴唇动作，接着使用这款软件来实时将嘴唇“语言”翻译成文本，然后再将其语音传输到佩戴者耳朵中。“未来，或许我们就不敢对着自己的电脑讲话了。”另一位研究人员布兰登“原因很简单，它们可能会读懂我们说的内容。” AI业内专家高度评价说，谷歌AI“读唇”软件绝对是构建全自动读唇系统的第一步，现有的各类庞大数据库完全可以支持深度学习技术的发展。“AI唇读技术非常实用，大有作为，例如可以使助