车载智能语音:语音识别的核心技术.pdfVIP

车载智能语音:语音识别的核心技术.pdf

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

车载智能语音:语音识别的核心技术

什么叫自然语音交互,为什么唤醒词都需要四个字以上,为什么

方言也能识别,唤醒词和后面的语音识别有什么区别,这期的内容给

你精彩答案。

什么是自然交互

这样说吧,你和朋友在一起聊天,吃饭是不是很自然,这样的交

互就可以理解为自然交互,这里面有眼神、动作、语音等多种交互方

式,当然会让你觉得很舒服、不做作,这样就是自然交互。

举一个例子,当你饿了,你会说,今天中午咱们出去吃?

你朋友回答你,那咱们吃什么呢,吃近一些的,要不吃酸菜鱼吧。

你回答说,好吧,那我们打车去吃酸菜鱼吧。

看到没有,首先要听懂你饿了,然后根据你的喜好,推荐一些合

适的菜品,最终达成目的,这个在人与人之间交互还好,如果换为机

器,那么此时就是非常大的挑战。

传统语音交互

自然语音交互

语音识别的核心技术特点

在说语音识别的特点之前,我问问大家目前接触比较多的智能语

音助手是哪些啊,是不是苹果手机的Siri,还有智能音箱,还有一些智

能车载语音助手,当然少不了一天几个骚扰电话的智能推销。

以下是机哥在做可科大讯飞研究报告中的PPT内容,可以看到科

大讯飞的核心技术就在于语音识别、语义理解、自然语音理解、机器

翻译、声纹识别,其实在应用上的领域就比较好理解,比如智能可穿

戴设备,智能机器人,智能手机上的语音识别,最初级的应用就是语

音识别,比如在法庭上的庭审记录直接就可以把语音转换为文字作为

记录,省去很大一部分的人力时间提升人工效率,智能语音客服可以

回答80%左右的用户问题等等。

其实仔细想想,用户使用智能语音助手的场景,在很长一段时间

是解放双手作为最大的吸引点,想想你在开车,想给某个人打电话或

者导航到某个地方,无论是安全还是有效性,语音都是最佳选择,还

有当你在拖地做家务时,想听听一些轻松的轻音乐,是不是直接语音

唤醒音箱播放,比你要去按键,然后再去手动选择输入要巴适得很。

真正的智能语音助手就如同是一个普通朋友,首先要听清楚说的

话,然后理解你表达的意思,最后是执行,也就是同你反馈你需要的

东西。这一小节需要讲的语音识别就是属于听清楚的范畴,机哥这个

听清楚比较容易吧,只要听力没有问题的人,听清楚语言是没有问题

的,这个对于机器其实就不是那么容易了,下面我们先来看看山东大

哥被车载语音气疯的一段小视频。

看到了吧,这个就是比较失败的语音识别的例子,这个没有处理

好的原因就是语音转文字这里就出了问题,把135识别成133去了,

这里的数字最容易识别错误,稍后看了下面的内容你就知道一个大概

是什么原因了。

在讲语音识别之前,我们先了解一下指纹识别,使用过指纹解锁

的手机的小伙伴几乎每天都几十次的使用频率,其实原理总结起来就

比较简单,就是先把你的指纹特征点进行提前登记到指纹库里面,下

次你再指纹解锁的时候,此时也是通过提取特征点后进行特征点的匹

配,如果匹配OK就开锁,如果匹配不OK及不解锁。

类似于用钥匙去开门的锁一样,一个钥匙只能开一个门的锁,如

果钥匙有损坏(也就是你指纹识别的时候有汗水或者其他脏污),那

么你原来匹配的门的锁也打不开,想想你的手机指纹解锁的速度还是

蛮快的,这个涉及到算法,识别速度指纹库的数量等等。

我们单从指纹库来说,自己使用到的手机录的指纹不会太多,一

般就左右手大拇指,想想如果是公司的指纹打卡,需要比对的数据库

就比非常庞大,所以耗费的时间就会更久一些,类似你要拿一把钥匙

去找到整个酒店哪个房间们能打开一样的原理,需要一个一个去比对,

当然如果你开每一道门的速度快,也就是比对的数据库的速度快,此

时耗费的时间就会更少。

以下是公司前辈总结的语音识别的核心框图,先从一个整体框架

和一个模拟的语音模型阐述,然后针对每个框图的步骤我这里进行一

些详细的解释。

语音识别的过程可以大致上可以分为四个步骤:声音的预处理、

特征提取转换、语音解码、文字解码。

即从音频信号到对应的文字,首先对声音信号进行滤波、分帧等

预处理工作,将需要分析的音频信号从原始信号中合适地提取出来,

并且通过一些方法从中提取出特征向量,再根据声学模型对特征向量

所可能表示的声学特征进行得分计算,得出可能的音素状态序列,然

后再通过语言模型,计算可能对应的词组序列的概率,最后根据已有

的字典对词组序列进行解码,得到最后的文本表示。

文档评论(0)

151****2470 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档