- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
磨砺以须,深挖语音数据宝藏.doc
磨砺以须,深挖语音数据宝藏
文/高妍 孙继文
时至今日,让机器“听话”,已经不是什么新鲜事了。在不少场景下,动口替代了动手。
用语音控制手机,可以完成编辑短信、打电话、查询交通、指挥导航等指令;对电视说话,电视就能完成开关机、转台、调节音量亮度,甚至发送弹幕等任务……类似的还有,在行驶中对汽车下命令:帮我打电话给XX;躺在床上对空调说:把温度调到26度;以及教会小朋友用语音控制手表学英语、查天气、定闹钟等等。
语音识别技术,帮我们实现了这些曾经只能出现在科幻片中的智能化应用。于是,人们开始有更高的期待:人与机器自由交流,是否也可以在不远的将来实现?
对此,清华大学电子工程系长聘副教授吴及在接受本刊采访时表示,让机器“听话”,只是一个单向的过程,而人机交互则是双向的,甚至可以是多人参与。这需要机器不仅听到、识别语音,更重要的要理解语音及交互时所处的场景、所蕴含的背景知识和经验。从听见到听懂再到自由交流,并不像人们想象的那么简单。
吴及,清华大学电子工程系长聘副教授,长期从事语音识别技术研究、系统开发及产业化推广工作,在20余年的积累和坚守后,迎来了语音识别产业发展的春天。
一项看上去简单的研究
语言是人类交流中最自然、最重要的方式。它的普遍易见,影响了人们的认知――说话那么简单,让机器学会说话肯定也不难。恰恰相反,吴及说,语音识别是一项看上去很简单,但实现起来很难的技术。
早期的人工智能先驱也曾被误导。“每当出现一些新的进步,就会积累起学界、工业界和普通百姓的高期望,从而形成热潮,但当做出来的东西不能满足大家的要求时,期望就会变为失望,整个行业也会从顶峰滑落,形成低谷。”发端于上世纪50年代的语音识别技术,就曾在70年代和90年代形成热潮,但都很快滑落低谷。
吴及开始语音识别技术研究是在1995年,当时的语音识别技术研究正处于低谷,不温不火。
那一年,吴及完成了清华大学电子工程系的本科课程,因为“想做创新性更强、更有意思的工作,所以选择了语音识别作为研究生阶段的主攻方向”,从此成为清华大学电子工程系语音识别实验室的一员新兵。
吴及的起点很高。这个由王作英教授创建于1987年的实验室,从孤立字、连接词到连续语音,一步步积累和发展,一直是国内语音识别领域最有影响的研究团队之一。
因为技术门槛高,进展缓慢,语音识别被誉为智能语音行业的“皇冠”。吴及介绍,语音识别研究的难点主要在两个层面,一是语音,二是语言。
“从语音层面来讲,人对声音有很强的区分能力,能一下子分辨出是有意义的声音还是噪声;在很多人说话的时候,能准确聚焦自己所关心的人的声音。这些对人来说再自然不过的事情,要机器实现非常困难。”吴及解释,同时,人在用语音表达的时候,往往是碎片式的,存在很多不流利的现象,比如停顿、犹豫、重复等等;而且不同的人语速、口音差别可能会非常大。这些都给语音识别带来了很高的技术难度。
而在语言层面,则更加困难。因为交流是相互的,不止要听见,还要听懂,理解,并作出正确的反馈。但是,“在很多情况下,人和人的交流是建立在共同理解的前提下,大家拥有共同生活经验、知识背景,甚至阅历。”所以,吴及强调,“理解语言,并不仅仅是理解直接表达出来的字句。从语音识别走向语言理解,我们还有很长的路要走。”
这一次是真正的变革
尽管技术门槛高,但近年,特别在2011年之后,语音识别技术却迎来新一轮的热潮,并取得了非常明显的进步。是真正的变革,还是又一轮泡沫?
“我相信它是在峰顶,也不会再轻易掉到谷底。它会越来越平常,越来越多地进入老百姓的生活。”吴及认为,近年语音识别技术的蓬勃并非虚幻的泡沫堆积,而是有实实在在的技术和产业支撑――
首先,移动互联网的兴起,为语音识别技术的应用提供了前所未有的巨大空间。当智能手机成为人们使用最频繁的通讯工具和信息助手,人机交互的场景变得与以往不同。原来PC端的首选工具――键盘、输入法,在手机端显得很不方便,而在PC端仿佛锦上添花的语音识别,在手机端却成为雪中送炭。当需求非常迫切的时候,对差错也就有了更高的容忍度,因此还称不上完美的语音识别技术就得到了更大的应用空间。
其次,云计算和互联网的发展,帮助语音识别的精度得到了极大提升。“云+端”的模式,使得对语音数据的识别可以在云端进行,然后把识别结果传到终端上。这意味着,一方面由于云端拥有更强的计算能力,所以能够构建更复杂的模型,实现更好的识别性能;另一方面云端可以利用实际的海量数据不断更新和优化识别模型,形成正反馈,不断提升识别系统的性能。
再次,从2011年开始,深度神经网络越来越广泛地被应用在语音识别的技术研究和系统实现中。长期以来,为了获得更好的识别性能,高
文档评论(0)