- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深度解读智能音箱技术:360度解剖智能音箱的耳朵
深度解读智能音箱技术:360度解剖智能音箱的耳朵智能音箱产业系列报道导读:最近数月,智能行业第一媒体智东西已深入智能音箱产业链,围绕智能语音交互入口之争和智能音箱之热,连发数篇深度报道,该系列还将覆盖业内数十家关键公司、核心操盘手和热点话题,本文为系列报道之一。如果没有“它”,所有的人工智能设备都是“聋子”,所有的智能音箱都是智障音箱;如果没有它,背后的人工智能技术牛X到天都没用!它是智能设备的“耳朵”——麦克风阵列。“Alexa”,当你对着亚马逊Echo呼唤时,它用顶部的蓝色光环应声相应,“今天天气怎么样”,它就会“听懂”你的意图,用柔和的声音告诉你天气状况。而“听懂”或者“听清”的第一步在于准确的获取用户的声音(即拾音),否则无论云端的虚拟助手多么智能,也是无头苍蝇。麦克风阵列是语音交互的第一步,在智能音箱落地中有关键作用,不仅传统的芯片公司,语音技术巨头和有深厚技术背景的初创公司纷纷加入这一领域。同时,随着智能音箱的火热以及语音交互的盛行,麦克风阵列技术开始走向前台,“XX产品用的是谁家的麦克风阵列”也成为行业中热议的话题;这时我们很有必要看清“麦克风阵列”产品技术的过去现在和产业链现状,也是本文作为智东西智能音箱产业系列报道的主要目的。那么我们经常提及的麦克风阵列究竟是什么?它有哪些类别及作用?哪些玩家参与其中?市场上各家智能音箱使用的麦克风阵列又有什么不同?一、麦克风阵列:拾音简单来讲,麦克风阵列是由2个及以上麦克风按一定规则排列组成,在特定空间对声音进行获取和处理的录音系统,它是远讲语音(超过1米以上)设备的一个关键部分。(注:本文所讨论的为远讲语音设备中的消费级麦克风阵列)麦克风阵列的功能就是拾音。在远讲语音设备中,麦克风阵列通过声源定位、波束形成、噪声抑制、回声消除等远讲算法,有效拾取声音,从而保证具体场景中语音的识别率。具体来讲,以智能音箱为例,在家庭场景中会存在各种噪声等,麦克风阵列的作用就是“众里寻他千百度”,在众多干扰噪声中寻找到你,但只是找到还不够,还需要抑制噪声、消除自身发出声音的影响,并增强你的声音,从而确保在云端进行有效识别,并满足你的任务指令。而拾音又分为远场拾音(1米外)和近场拾音(20cm内)。比如,以Siri为代表的智能手机就是近场拾音,采用的是单麦克风,可在近距离、低噪声的情况下拾取符合语音识别需求的声音。但是一旦将智能手机放在有噪声的较远的距离,Siri的识别率就会直线下降,单麦克风的局限就凸显了出来。而这正是远场拾音和近场拾音的区别,也凸显了麦克风阵列的重要性。不仅如此,由于噪声、混响等因素的存在,远场拾音还要与远讲语音识别算法相匹配,才能真正做到“听清”。二、麦克风阵列中的关键技术在远场拾音中,麦克风阵列可以提供前端信号处理,拾取有效的语音信号输送到云端进行识别。这其中就几项关键的技术:声源定位、波束形成、噪声抑制、回声消除、语音增强。1、声源定位声源定位的任务就是在具体场景中,甚至从噪音中找到发出声音的“你”,以便后续的波束形成。它是基于麦克风阵列对目标信号(声源)的位置探测,确定在特定空间中说话者的位置关系。尤其是在移动场景中,实时的声源定位就显得重要。2、波束形成波束形成是对麦克风阵列中各个麦克风输出的声音进行信号处理,从而形成空间指向性。这种方法会抑制目标声音以外的声音干扰,不仅抑制噪声也包括其他方向的人声。以叮咚音箱的AIUI模式为例,开启了一定时间的多伦对话后,它会优先默认第一个说话者作为它拾音的主方向,从而抑制其他方向的声音,来保证和一个对话者的交互。这也意味着,当前技术下,智能音箱不可能同时和多人进行交互。3、噪声抑制你在卧室中开着电视,是很难唤醒在你床上睡觉的iPhone中的Siri的,这就是它不具备噪声抑制的能力。但你可以唤醒理你较远的智能音箱,这正是噪声抑制的作用。简单来讲,噪声抑制就是在目标信号和干扰噪声中,保留目标声音,削弱周围的噪声,从而保证获取的目标声音信号相对清晰,再结合云端相匹配的语音识别算法,实现有效识别理解。4、抗混响混响就是声源发出后,在空间中经过多次物体(墙壁)的反射和吸收,若干声波混合在一起所形成的现象,它会影响语音信号的处理,声源定位的精度以及语音识别效果。通过远讲算法消除混响是远讲语音设备在拾音环节的关键一环。5、回声抵消回声抵消简单来讲,就是不让语音设备自己发出的声音干扰到拾音过程。比如在智能音箱播放音乐时,你唤醒设备并下达命令,这时麦克风阵列同时采集你发出的声音和正在播放的音乐的声音,而回声抵消就是要去掉其中音乐的声音并保留人的声音,以供云端进行语音识别。6、语音增强在家居环境中,存在着背景噪音、回声、混响等噪音干扰,这些噪音相互叠加严重影响语音识别效果。除了降低各种噪声外,还可以从语音增强进行改善。远距离拾音的另一个问题就是获
您可能关注的文档
最近下载
- 初中道德与法治新人教版七年级上册全册教案(2024秋).pdf VIP
- 2025年无犯罪记录证明申请表申请书(模板).docx VIP
- 《新媒体营销基础》课件——新媒体营销概述.pptx VIP
- 项目计划进度管理流程图.pdf VIP
- 2024广播电视播音员主持人考试历年机考真题集附答案详解【考试直接用】.docx VIP
- 200MWh储能电站安全预评价报告.doc VIP
- 华为经营管理-华为的流程管理(6版).doc VIP
- 2015-2020年一建历年真题-水利.pdf VIP
- 平行文本在翻译中的运用.ppt VIP
- 口腔医疗行业市场规模增长与竞争格局分析报告:2025年市场展望.docx
文档评论(0)