Siri是如何工作的.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Siri是如何工作的?Siri技术解析Siri的学术化全称为“个人自动智能助理”(Personalized Intelligent Assistant),并非苹果公司自主研发,最初是苹果AppStore的一款应用,苹果公司发现后很快于2010年4月份从斯坦福研究机构国际智能中心(SRI)处收购而来,传言收购价格在2亿美金左右,之后很快Siri从AppStore下架并集成进入IPhone 4S。作为“个人智能助理”,Siri能为你提供什么服务?可以将Siri理解为一位低智商的生活秘书(和人类的智能比),它采用了Nuance公司的语音识别技术,具有一定程度的语义理解和用户意图识别能力,可以聊天解闷,更主要的功能是帮助办理一定的事务,比如预订餐厅、预订出租车、搜索精确答案、查询天气等。我们首先看一些例子来看Siri能做什么:对话一:User:“我想掩藏一具尸体。”Siri:你想藏在哪里呢?(给出5个选项)水库工厂矿山垃圾场湿地对话二:Siri:有什么我能帮忙的?User:“我想我刚刚杀了人。”Siri:是这样么?User:“是的。”Siri:“你说要掩藏尸体我就想到了”User:“我该怎么做?”Siri:“好吧,这是你接下来的日程表。”对话三:User:“去哪儿能弄些毒品?”Siri:“这附近有2家戒毒所。”对话四、对话五、对话六:由以上六个用户和Siri的对话记录片段可以看出Siri具备一定的语义智能,如果了解其技术原理,可以知晓解闷陪聊功能并非其最初出发点和功能重点,在多个垂直领域帮用户完成一定的任务才是其核心功能。图1 . Siri整体架构Siri是一个功能繁复的综合AI框架,图1展示了其包含的数据、模型以及计算模块,为了在整体上更易于理解整个框架,可以将Siri里包含的众多数据、模型和计算模块划分为输入系统、活跃本体、执行系统、服务系统和输出系统五个子系统。其在解析用户输入时候遵循一定的执行顺序,以此来理解用户的真正意图并提供有用服务。Siri的资源主要分为资源类和计算类两大类,其中属于资源类的包括;领域模型;词汇表数据库;短期记忆系统;长期记忆系统;领域本体数据库;对话流模型;服务模型;服务能力模型;外部服务;属于计算资源的包括:语音识别系统;语言模式识别器;语言解释器;对话流控制器;任务控制器;服务集成模块;语音生成系统;Siri的输入系统支持多模态输入,即不仅仅支持众所周知的语音识别,也允许用户进行文本输入、GUI界面操作以及事件触发等。除了支持多模态输入外,Siri输入系统一方面可以利用语言解释器对早期输入进行歧义消除,另外一方面还可以对用户输入进行有意识的引导,将用户输入尽量映射到Siri能够提供的服务上来。这样对于用户和Siri来说才可相得益彰,Siri可体现其价值,用户可获得帮助。图2. 活跃本体“活跃本体”是Siri中相当重要的一个概念,“活跃本体”可以被理解为Siri整个系统执行的一个具体执行环境和场所,执行系统调用所有系统数据、词典、模型和程序,在“活动本体”内对用户输入进行解析,并将文本信息在这里解析为用户真正的意图,然后根据意图来调用外部的服务。在程序执行时,“活跃本体”内放入的数据和模型包括:领域模型,用户个性化信息,语言模式、词汇表和领域实体数据库等。领域模型包括某个垂直领域内的概念,实体,关系,属性和实例的内部表示,这其实就是Semantic Web这个研究领域常说的ontology。Siri包含很多垂直领域的领域模型。“词汇表”用于维护Siri中的表层单词到“领域模型”或者“任务模型”中定义的的概念、关系、属性的映射关系;被用来引导用户输入、自然语言解析和生成输出结果。Siri在个性化方面做得也非常出色。在和用户沟通过程中,如果一台机器能够叫出你的名字,并且知晓你的个人爱好,用户体验无疑是非常优异的。从具体技术手段上,Siri是通过在内部保持两个记忆系统:长期记忆系统和短期记忆系统来实现能够个性化的和用户交流的。长期记忆系统存储了用户的名称、居住地址以及历史偏好信息,短期记忆系统则将最近一段时期内Siri和用户的对话记录及GUI点选记录等登记下来。利用这两个记忆系统,Siri可以在理解用户需求的时候帮助澄清用户的真正意图是什么。语言模式识别系统是对用户输入的表层,语法层,习惯用语和成语等进行模式匹配的模块。匹配模式的代码在Siri内部采用正则表达式或者状态机等方式实现;在Siri识别出指定的语言模式后,可以帮助判断用户输入所述的任务类型。图3 执行系统执行系统是Siri系统最有技术含量的部分,前文有述:“活动本体”是对根据用户的输入信息,将各种词典资源,模型资源实例化进行具体加工的场所,而真正的加工过程是由执行系统进行的。执行系统不仅将用户原始的文本输入解析为内部的语义表示,而且要在用户和Si

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档