百度MU用户开口说话怎么就那么难.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
百度 MUX: 用户开口说话怎么就那么难 老罗曾经说: 语音识别技术的使用上,无论是“ siri还是它的模仿者,都从根上就犯了错,所以都是 热闹一阵就过去了,几乎没人认真用它 ( 因为不好用 + 用起来显得巨傻 )。”虽然说的有些偏激,但是 没人认真用也就是说大家不愿意开口说话这件事情是值得思考的,语音识别技术这个根正苗红的太 子发展到现在,试图渗透着我们生活的同时,我们也发现这玩意儿看起来并没有传说的那么神乎 其神,从语音机器人到 Siri再到 Google Glass ,每一次相关产品的问世都引起极大的关注度,但又 随着时间和了解逐渐平息下来,到底是什么让我们觉得巨傻而难开金口呢 ? 市场现状 首先来看下目前常见的语音类产品: 一、手机领域:微信、语音助手、听歌搜索 二、 PC 领域:语音聊天、外语教学软件、盲人辅助软件 三、其他设配领域: Google Glass 、车载系统 图2 : Google Glass 。 图3 :盲人阅读器。 图4 :Duolingo 外语学习软件,通过语音练习听说。 使用习惯分析 他们有的涉及识别,有的不涉及,但从以上这些产品中,可以发现几个有趣的现象: 1.在手机这个领域,听歌搜索这个细分领域的识别还是很准确的 ; 2. 由于微信的教育,可以见到越来越多的人在公共场合对着手机说话,语音的沟通方式已经没有显 得那么不自然了,用户习惯逐渐形成 ; 3.外语教学和盲人辅助类的软件都有他们的特有的市场,竞争壁垒高也容易取得了成绩 ; 4.其他设备领域虽然尚属新兴,但由于其设备条件和配备场景的特殊性和前瞻性,是发展渗透的 趋势。 问题和解决方案 通过以上这些发现,不难看出人们在使用语音进行人机交互时遇到的问题,方便我们借助设计手段 提升用户开口说话的欲望: 识别的准确率 环境噪音、硬件设备的条件、技术的限制都会降低识别的准确率,和人们表达能力的差异性以及人 们理解能力的广泛性相比起来,技术和人还不能相比,因此在试过几次之后,我们说话时会变得咬 文嚼字小心翼翼。 那么从交互的角度,我们将 小心翼翼“ ”的问题拆开来细看,有一些办法可以优化甚至解决: 1.不知道对准哪里说 —— 应用中最大的 call to action 语音按钮置于麦克风附近,例如 iPhone 的麦克 风在手机的下部, Siri 的按钮和声波动效反馈也都在手机下部,用户自然形成对准手机下部说话的条 件反射 ; 2.不知道何时开始 /结束说话 —— 长按进行语音录入。第一,长按作为语音录入方式已经形成用户 习惯,不仅可以应用在社交软件领域,也可以应用到语音识别的场景 ;第二,长按对于语音录入的开 始或者结尾是由人自己进行控制,相比机器判断更加准确,利于屏蔽不必要的噪音 ;(例如:百度语 音助手 Android 版 ) 3.识别语言不清晰 —— 进行有效的提示和引导。一种情况下识别的结果不唯一,可以通过置信区间 的判断给出用户更多的结果建议,或者提供可供修改的部分和候选项来降低用户心理挫败感和降低 修改成本。 (例如:百度地图语音输入查找地点 鹏寰大厦“ ”后提供的搜索建议列表 ) 。 情感因素 人机对话过程可以拆分为三个阶段:人的语音输入 →语言识别、分析 →机器的回答反馈。 从体验设计的角度来思考解决方案,第一阶段尤其是在公共场合下,对着一个机器用咬文嚼字的腔 调说话略显奇特,从交互的角度来看,我们可以: 1. 提供备选输入方式 —— 键盘输入 ; 2. 分层收敛 —— 进入足够垂直的场景,减少不必要的干扰因素 (例如:百度语音助手 召唤小黄鸡“ ”进 入小黄鸡对话场景,在这里就是打趣,和打趣无关的一切事情皆被抛开,发挥想象力,我们可以把 “ 打趣 ”换成任意一个场景 ); 3. 模拟已有的使用习惯。 例如把电话拿到耳边这个行为,它具有足够的针对性指向

文档评论(0)

tianya189 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地境外
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档