[AI工具宝典]AI产品经理需要了解的智能语音知识:上下文的对话管理.pdfVIP

[AI工具宝典]AI产品经理需要了解的智能语音知识:上下文的对话管理.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

编辑导读:随着人工智能的发展,市面上出现了很多智能产品,它们的核心是希望解放人

,用机器来帮助完成简单的工作。其中,智能语音是最常用到的应用之一。本文梳理了一

些AI产品经理需要了解的智能语音知识,与你分享。

智能产品经过几年的打磨,从开始简单的天气查询,播放歌曲,到去年前年的家庭、车内

IOT设备互联,直到今年火爆的AI生活服务。

整个演变的过程,不仅仅说明了技术的革新,也逐渐说明用户对新功能的期待,以及对智

能产品表现出来的更大接受度和包容度。智能语音从简单的单轮指令性操作,逐渐演变成

可以进行多次的连续对话,甚至有些问题似乎可以匹配人类的聪明回复。

1.智能语音的整个交互流程

主要有以下几个步骤:

听清:用户说一句话,机器先把用户的语音转变成文字,让机器读懂用户具体说了什么。

听懂:包括意图识别和任务分发,主要是自然语言理解技术,包含nli和nlp的技术实现

。让机器明白用户到底是说了什么。

意图识别:用户说话的意图:要结合当前的用户使用情景,服务场景,硬件环境,机器会

按听懂的内容,给出一个N-bestlist,按权重进行排序。意图分发:拿到N-bestlist上

面排位最靠前的意图,去请求指定的domain数据并执行任务。

渲染界面:用户听到机器的TTS回复,以及GUI的页面呈现内容。

这其中第二步就是对话管理,主要完成对话状态的维护(dialogstatetracing,DST),生成

系统决策(dialogpolicy),作为接口与人物模型进行匹配、提供语义表达的期望值

(expectionsforinterpretation)、分发任务记录当前queryID和pageID。当前是用户

的一次对话需要经历的全部流程,如果需要多次的对话,就要不断的维护对话栈,并且对

话栈要匹配当前的pageID,才能帮助用户经历多次跳转都能到达预期的页面,所以多轮

交互更加复杂和难以掌控,本文具体介绍多伦交互如何在产品上的实现,和当前存在的技

术问题,以及产品如何规避技术问

2.多轮交互的三种产品形态

「问题补充」

定义说明:需要用户填补确定槽位信息以后,才能让机器明白用户的当下的真实需求,同

事,机器基于用户的多次槽位回复找到相对应的nli,并且给出用户需要的结果。槽位的

集合,定义了需要用户提供哪些信息。

应用场景:主要应用在一次对话不能让机器明白用户的意图,需要进行多次对话,机器拿

到固定的多次结果后才能给出结果,主要应用在多步骤的同类型任务中。

以上例子可以看出来,只有用户说了最后一句话,电话才能打通。这期间经历了【遍历电

话本】-【nli匹配用户名称】-【提取结果】-【上下文管理】-【指代上文的第几个】-【

拨打电话】基于上文内容,经过几个步骤才能完成打电话功能。

「搜索筛选」

定义说明:用户需要进一步缩小自己的搜索选择范围,经过多次筛选和多个上文条件的累

加,才可以让机器找到当前用户需要的结果。

应用场景:多伦筛选和搜索,是用户区别与手机APP交互的主要应用场景。界面的筛选

只能做到,单条件的筛选,想要附加其他条件,或同类型服务对比,需要GUI操作或者

打开新的APP重新选择。整个流程相对繁杂。语音解决了用户重新选择,点击界面的操

作步骤。用户可以先看一下机票,如果不满意立刻切换火车票,如果还不满意,再返回机

票,机票也可以进行多次的筛选选择出自己需要的机票信息。

用户不需要每一次对话都要说清楚北京到上海的条件,在对话的开始说一次,之后的查询

车票和返回机票都是按当前起始地和目的地进行查询。如果用户想要更换城市,可以

query“深圳出发”,这时候起始地就会更改为深圳市。

「跨场景跳转」

定义说明:不同场景内的上下文指代,主要通过“名称指代”,“他”等代替上个场景的

主要部分。

应用场景:用户的任务是连续的,可能需要跨越几个APP才能结束。跨场景的上下文对

话管理,不仅让用户感受无感APP的跳转,还能让用户感受到语音比GUI操作的真实便

利感。

从上文的交互流程可以看到,【人物百科】-【歌曲】-【电影信息】-【播放视频】如果

按当前app的呈现方式,用户想要看个视频,要打开查询并手动关闭3个app包括【百

度百科APP】-【QQ音乐APP】-【腾讯视频APP】这个流程根本不可能1分钟内完成

。这就凸显了语音交互的优势了。

3.上下文交互存在的问

如此好的用户体验,想到做到用户无感知,产品体验极致,是需要技

您可能关注的文档

文档评论(0)

LOONG + 关注
实名认证
文档贡献者

三步一卡,卡的潇洒;五步一停,摆个造型。

1亿VIP精品文档

相关文档