- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音识别即将进入规模化应用
当下语音识别可能已达到平均95%的准确度,一旦提升到99%,就将发生质变。
来自商界的种种动向显示,语音识别,这项把人类语音转换成文本的研究,已经成为人工智能领域最接近应用的技术。
过去数月间,这种动口不动手的“黑科技”频繁出现在国内科技行会中。7月,奇点极客公园创新者峰会上,搜狗CEO王小川一边演讲,大屏幕上一边显示出内容,识别结果令人惊艳;10月上旬,在杭州云栖大会上,4万人现场见证马云一边演讲,一边在大屏幕上秀出阿里机器人打出的字幕,还有700万人通过在线直播观看了这一幕,造就了语音识别最大规模的一次亮相;10月下旬,锤子手机M1发布会上,科大讯飞的语音识别技术快速、精准地将罗永浩的讲话译成文字,几乎成为发布会主角。
一边演讲,一边在大屏幕上弹出语音识别字幕,日趋成为潮流标配。这也意味着,这项技术正在步入成熟期。微软10月底发布的一份学术声明表示:语音识别技术的精准性已经媲美人类,在产业标准测试中,其语音识别实现了词错率低至5.9%――与人类专业速记员的最好记录持平,这意味着其识别能力已经高于世界上绝大多数人,而与人类专业高手持平。
顶级语音专家、微软研究院首席研究员俞栋表示,在安静环境下,使用近距离麦克风,语音识别的正确率已经跨过了应用门槛。
巨头的共同动作
来自巨头们的动作亦可印证这一趋势:从2010年开始,苹果公司先后收购包括Siri在内的3家语音识别公司;谷歌、亚马逊、Facebook也各自收购2~4家;微软则从自家战略层面发展Skype、Cortana和微软小冰;今年,英特尔宣布与语音识别技术公司Sensory达成合作,在以后最新的芯片中集成整合该公司的语音识别技术。
相比国外大公司在收购技术上花钱,国内公司则将各自语音识别技术大胆靠近应用。例如百度语音嵌入百度旗下其他App,搜狗语音应用于输入法,腾讯则让微信具备语音转文字功能。创业公司也纷纷利用语音技术,依靠硬件作为流量分发入口,应用在智能家居、车载语音助手等产品上。
事实上,现阶段大部分人早已享受语音识别科技,比如客服服务。作为全球最大的电商,阿里巴巴的客服需求一直伴随业务的激增而扩大,这导致人力成本高企。应对这一状况的传统方式是客服外包,但其服务不可靠、不稳定的缺点难以克服。最开始,阿里采用抽检式的质检,从每100通电话里抽取1通,由人工逐句检验录音是否合规。
负责人很快发现,1%的抽检率不足以覆盖全部问题,因为每个人犯错的方式存在很大差异。于是,阿里云的人工智能机器人ET介入该项服务,将语音转化为文字,再利用关键词搜索等完成质检,一旦触发违规,会自动进入处罚流程。如果客服认为ET识别有误,自己被冤枉了,可以点击“申诉”――人工质检员只在这一步介入。如此,在同等人力条件下,质检率从1%提升到了100%。
阿里云智能语音高级专家陈一宁告诉《财经天下》周刊,除了客服,语音识别也应用在淘宝、支付宝、钉钉等移动端应用,甚至进入了杭州市西湖区人民法院的庭审现场。自今年6月起,该法院的书记员工作被ET替代。法官及诉讼参与各方人士的发言,都会在显示屏上即时显示。
陈一宁解释,让语音识别参与庭审不仅可以节省人力,其最大意义在于方便检索和后续分析。法官们在审案前,需要参考同类案件的处理,而ET自动将庭审内容转化为文字并归档,就能方便法官输入同类关键词,查看所有相关案件的记录。
电脑与人耳的优劣
微软称最新的语音识别词错率与专业速记员持平,阿里也做了类似的测试。在今年年初的2016阿里云年会上,阿里ET与世界速记大赛亚军得主姜毅同时为现场演讲做速记。与姜毅的对决中,ET以0.67%的微弱优势取胜。
面对人类中的顶级选手,ET的取胜优势在于其稳定性和并发计算能力。人类的体力有极限,在高强度压力下难以保持稳定;此外,计算机的高并发能力使其可以在发现错误后,瞬间完成修改,速记员则只能在演讲者话语中断的间歇见缝插针返回修改。
人类的另一个弱项是对短句的识别。如果没有前后语境,突然冒出一句语速又快、内容又短的句子,一般人很难听清。但计算机不怕语速快,并且能通过大数据学习沉淀下的经验,去根据之前听过的类似语音,来计算出这句话最可能是什么。
但若论真正“听懂”的智慧,电脑尚未追赶上人类。比如在环境嘈杂、多人同时发音、中英夹杂等条件下,电脑便不及人类能迅速过滤无用信息,理解对方的意思。或者,讲述者说的是一个全新的、创新性的词语,此前没有人说过,机器自然没学习过,就很难识别。
有趣的是,方言与口音并不在计算机惧怕的领域范围内。以阿里客服为例,他们每天会接听来自全国乃至世界各地的电话,后台的ET被各种口音训练过,只要积累足够的训练量,可以无上限地成为N种方言
原创力文档


文档评论(0)