语音识别成长起来,并走向移动的应用.docVIP

下载本文档

0
0
约4.87千字
约 11页
2018-11-06 发布于福建
举报
版权申诉

语音识别成长起来,并走向移动的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音识别成长起来,并走向移动的应用

语音识别成长起来,并走向移动的应用　　从台式机到移动设备再到更多应用，语音识别已经不再是满足小众需求的新鲜事物――而且还衍生出了一类新型的小工具。　　过去三十年里，语音识别是这样的：您能够和自己的计算机交谈，通常使用头戴式麦克风，使用微软Windows中未公开的语音识别应用软件，或者Nuance通信公司“龙自然语言”版的应用软件。如果您发音很清晰，那么屏幕上就会显示出单词，然后执行命令。　　今天，改进很大的语音识别技术得到了广泛应用，在过去两年中，它催生了一类新的消费系列产品：语音控制的个人助理。VoiceLabs公司为语音应用软件开发人员提供分析技术，该公司创始人之一Adam Marchick表示：“这是经过了30年的沉淀而一夜成名。它终于变得足够精确，足以能进行对话了。” 　　和大多数技术一样，语音识别的发展也是逐步的。2017年8月，微软宣布，根据行业标准测试，其会话语音识别系统的单词识别准确度已经超过了专业人类转录员的识别准确度。在此类测试中，专业人员的平均错误率为5.9%，而微软系统达到了5.1%。　　微软技术研究员，也是该公司语音和语言部负责人黄学东说：“这就像梦想成真。1993年我们在微软开始语音识别时，错误率大约是80%。1982年，我在读研究生的时候开始研究语音识别技术，那时，我们面对的是孤立的单词，根本不敢想象软件能够像人那样识别出对话。” 　　Nuance首席技术官Vlad Sejnoha说：“今天，如果您在一间安静的办公室里，清晰的用普通口音说话，那么语音识别准确率能接近100%。” 　　这样的准确度意味着人们能更好的与自己的电话进行交谈，更轻松高效的与客户服务呼叫中心的机器人聊天，在家里和办公室里使用语音命令。　　逐渐累积的进步　　Sejnoha说，该技术能够达到目前的水平，也是一步步走过来的。Sejnoha说：“15到20年来，我们使用的主要技术是基于统计学的，特别是隐藏Markov模型。我们有各种各样的模型来预测这个片段是某个特定音素产生的可能性，或者某个单词应该合理的出现在某种上下文环境中。我们开发了各种变体，并且能够稳步进展。　　他补充说：“近年来，传统的统计方法已经被深度学习（神经网络）模型所取代，这些模型非常灵活，而且比以前更能推动系统的发展。结果在过去10年中，错误率平均每年下降20%。”他说，语音识别现在能够为更多的人提供服务，用在各种各样的环境中。Sejnoha举了一个语音识别仍然不能很好工作的例子，他说：“在鸡尾酒会上还是要喊。” 　　Sejnoha预计每年20%的改善率仍然会继续下去，不仅越来越适应嘈杂的环境，而且还能适应很多特殊的情况。他指出：“理解多种语言越来越重要，在欧洲借助GPS地图，还必须做一些工作，比如理解德国司机所说的法语地名。普通话有很多外来词，其发音因人而异。” 　　关键点　　随着每年20%改善率的累积，大厂商开始使用深度学习来制作自己的语音识别引擎。后来，他们越来越信任该技术，认为它足以支持新一类消费产品――个人助理，先是作为应用软件（例如，苹果的Siri和微软的Cortana），后来作为独立的设备（例如，基于Alexa服务的亚马逊的Echo，基于谷歌助理服务的谷歌Home，等）。　　这类系统的语音识别是在云中进行的。这些设备在收到“OK Google”类似的命令提醒后，开始收听，传送出语音数据。　　Marchick解释说：“设备非常薄，就像Unix终端一样。计算机在云中，它们会待命，听它们的名字，就是这样。” 　　语音和视觉技术公司Sensory首席执行官Todd Mozer补充说：“长期以来，语音识别的重点一直放在计算机上，但在过去的5到10年间，重点转向了消费类技术。第一个关键事件是Steve Jobs发布了Siri，表明了对语音识别的支持。苹果无论做什么都会是消费类电子产品的典范。第二个关键事件是亚马逊发布基于Alexa的产品，例如Echo。” 　　Marchick说：“当我们在一年前开始这项业务时，市场上只有亚马逊的Echo，以及几万台设备。很快Echo将面对7个竞争对手，预计今年年底会有三千三百万台设备投入使用。语音交互会大幅度攀升。此前，有三百人为这些设备制作语音应用程序。而一年后的现在，有一万六千人。” 　　Marchick说，Echo的竞争对手包括谷歌Home，再加上未发布的苹果HomePod；?\行微软Cortana的未发布的Harman/Kardon Invoke；还有三星Galaxy智能手机的三星Bixby；其中至少有两个是中文系统。　　扩展应用　　但事实证明，这些供应商通常会提供软件开发工具包，使其语音识别引擎能够被用来开发使用自然语言作为接口的应用程序。对话技术公司顾