- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人工智能使读唇越来越精准
人工智能使读唇越来越精准 读唇破案匪夷所思
读唇术是一种以视觉代替听觉的高超技能,在隔绝说话者话音的情况下,会读唇术的人依靠观看他们说话时的嘴唇动作,就能解读所说的内容。在国际上,读唇已经成为媒体爆料和案件举证的重要来源之一
此前,英国皇家检察院雇佣著名的“读唇女王”杰西卡“无声证人”一度被视为该国司法界的“奇迹武器”,帮助法庭将至少包括谋杀犯、武装抢劫犯、恐怖分子和毒品大亨等在内的30名罪犯定罪关入监狱,其中5名是英国2002年“零证据”最大劫钞案(案值650万英镑)的罪犯
杰西卡自幼失聪,却能通过读唇术理解别人的话语。她阅读唇语的能力如此娴熟高超,往往让人们很难发现是一位耳聋患者。在这位唇语解读者的视线之内,没有什么秘密可言。无论怎样的对话场景,哪怕是录像带中人的脸没有正对着摄像机,只要看到了对方的部分嘴唇,也能够通过读唇术破译出来。杰西卡从侧面、上面和下面各个角度,即使隔着40~50米远,也可以根据说话人的嘴唇动作读懂他们的话语内容,甚至连方言也难不倒她
然而读唇这种独特的技艺学习起来非常困难,因为它对于语言语境和知识理解要求非常高。测试实验发现,大部分人在别人说话时,通过观看后者的嘴唇动作,只能辨别出10%的单词,即便是所谓的唇语专家,准确识别率也不够理想。像杰西卡这样的读唇术天才,真是凤毛麟角
然而研究人员称,通过获取大量数据来寻找“共同点”的人工智能(Artificial Intelligence,以下简称AI)技术,能够大大提升音频语言的识别度,使读唇越来越精准,达到跟“面对面”对话一样的程度
最近,谷歌旗下DeepMind AI团队与英国牛津大学合作,开发出迄今为止全球最先进最准确的AI“读唇”软件。为了实现超过人类读唇能力的目标,研究人员选取了BBC2010 年1月~2015 年12 月间的一系列电视节目,其中包括“新闻之夜”“英伦早晨”“提问时间”和“今日世界”等,然后上传到一个神经网络上,对其“读唇”软件进行训练,即根据主播嘴部运动来识别其播报内容
Deep Mind团队发现,人们在观看视频时,如果里面主人公说话的口型与声音不吻合,就会觉得很不舒服。这是音视频流不一致造成的结果。音视频流包括视频流与音频流,其中前者指视频数据的传输,后者指控制“数据流”同步类型音频的输出质量。为此,研究人员先让计算机学会完全同步的音视频流,掌握发音与唇形间的关联,进而自行推断音视频流中哪些画面是不同步的,再进行自动修正,从而避免了视频流与音频流不同步的障碍
据统计,将选取的BBC所有的视频资料加起来,约有 11.8 万句话和1.75万个不同的单词。在经过了大约5000个小时的训练之后,掌握了读唇技术的AI“读唇”软件正式开启了读唇功能。在后来进行的读唇对比测试中,从2016 年3 月~9 月的节目库中随机选取出 200 种说话场景,要求对电视节目嘉宾进行唇语解读。结果很令人震惊,AI“读唇”软件的完全准确率为46.8%,而专业的唇语专家在接受同样的测试时准确率仅为12.4%。它不仅迅速掌握了读唇术,而且还比唇读专家做得好,一些媒体将其评为2016年10大科技之一
不久前,牛津大学AI实验室的研究人员也使用深度学习技术,开发出了一种名为“LipNet”的AI“读唇”软件。在将视频中人物的嘴部运动与其台词进行匹配时,它的“表现”远远胜过了唇语解读者。虽然现在还处在初期阶段,但这款软件几乎达到了一种能够“实时”将静音视频转化为文本脚本的处理速度
研究人员选用了一组数据库,用它对“LipNet”AI“读唇”软件进行训练和测试。测试中,研究人员收集了来自34名志愿者事先录制好的短视频。在视频中,他们读取的是一些“毫无意义”的句子(比如插图说明)。每个短视频只有3秒长,并且每个句子都采用非常简单的句式结构:命令动词+颜色+介词+字母+数字+副词,没有任何复杂的事件背景可言,测试视频当中的特殊词汇只有51个。但从事这项研究的科学家雅尼斯阿萨尔指出:“LipNet’AI‘读唇软件的测试结果令人满意,能够在更大的数据库中表现出色。”
这款“读唇”软件可以帮助那些听力受损的人群,尤其是在一个比较吵闹的环境(也就是计算机很难分离出噪音的环境)。他们可以佩戴内置摄像头的眼镜,在参加聚会的时候清楚地拍摄到目标人物说话时嘴唇动作,接着使用这款软件来实时将嘴唇“语言”翻译成文本,然后再将其语音传输到佩戴者耳朵中。“未来,或许我们就不敢对着自己的电脑讲话了。”另一位研究人员布兰登“原因很简单,它们可能会读懂我们说的内容。”
AI业内专家高度评价说,谷歌AI“读唇”软件绝对是构建全自动读唇系统的第一步,现有的各类庞大数据库完全可以支持深度学习技术的发展。“AI唇读技术非常实用,大有作为,例如可以使助
文档评论(0)