QQ浏览器智能问答技术探索实践.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
QQ浏览器智能问答技术探索实践 原创常景冬 DataFunTalk 2021-09-24 原文 收录于话题 #原创精选 187 个内容 #腾讯 17 个内容 #智能问答 4 个内容 分享嘉宾:常景冬 腾讯 高级研究员 编辑整理:高同学?中国科学院大学 出品平台:DataFunTalk 导读:近年来随着搜索、语音交互、智能客服等场景的不断进化,问答技术的应用越来越丰富,本文将会介绍智能问答在QQ浏览器搜索引擎上的相关工作,通过精准、快速满足用户检索意图帮助搜索引擎的智能化升级。 搜索引擎从第一代由人工分类,到文本检索,到后面的整合分析,再到现在第四代智能搜索的概念,通过机器学习算法、NLP等技术来给用户呈现出更加全面,更加及时,更加精细化的结果,包括智能化的文本,以及结构化的知识,以及一些多模态的内容。 搜索场景里的Query需求大概分成几个方面,第一类是导航类的需求,第二类是资源类的需求,第三类是信息类的需求,信息类的需求占的比例会比较大,问答就是信息类需求中的一种。 在整体的搜索需求里,问答可以占到25~30%,如搜实体、搜关系、搜方法、搜因果等都可以通过问答的一些技术手段来满足。 以上是我们的一些业务的问答形态,?包括:普通的图文内容、列表型答案内容、医疗法律等垂类内容、结构化数据内容、事实性短答案等等。 接下来会分三条技术线条,每个线条展开一下重点模块,给大家分享一下这些业务落地的实际过程: KBQA:基于知识图谱的推理问答 DeepQA:基于通用文本挖掘的机器阅读理解问答 IRQA:基于FAQ问答库的检索式问答 01 KBQA Knowledge-Based QA 1.?什么是KBQA 知识图谱通过三元组的形式把知识组织成一张知识网络,里面包含着很多的实体关系和属性,当用户问一些结构化的知识的时候,比如说埃菲尔铁塔在哪里,直接通过里面的实体跟属性关系的查询,就可以找到目标答案;以及一些复杂的问题,需要在图谱中通过多条路径推理找到有支撑力的答案。 2.?解决方案 要去完成KBQA这件事情,解决方案有很多,这里列举两个例子,第一个是结构化的推理,基于组合范畴语法、句法依存解析query结构,并将其转换成图引擎的表达式,再做进一步推理;另一种是端到端,基于神经网络,把原始的用户Query,一站式的从文本转换成图引擎表达,然后做查询得出答案;同时也有基于子图挖掘的一些重要的方法等等。但这些方法在不同的场景上的适配也不太一样,比如短文本的场景、长文本的场景以及一些多轮对话的场景。 3.?方案选择 QQ浏览器知识图谱,包含亿级别的实体,几十亿级别的SPO三元组,涵盖了人物,影视,医疗等等十几个大的领域。基于当前图谱现状结合,结合搜索的一些特性,最终选择结构化推理的方案。 ① 特点 当前用户检索的表达通常比较短,甚至有一些简单的词堆砌,输入两三个词去完成一次检索。 搜索里面大部分还是简单的SPO查询,也会有少量的嵌套查询和限定查询,但是量比较少。 搜索的长尾化会很严重,也需要去考虑长尾化品类拓展的成本问题。 最后最重要就是需要灵活多变,要求强的可解释性,遇到问题时需要批量收敛;搜索的产品形态会比较多样化,面对业务的定制要有更深更灵活的定制需求。 ② 结构化推理方案 结合这些特点,我们最终选择推理化的方案,主要包含四个模块,Query解析,算子引擎,图引擎以及排序: Query解析:首先AC自动机识别Mention,通过NEL做双实体链指,识别主成分后,通过嵌套模板及基础意图模型进行层次化解析 算子引擎:有了成分嵌套解析、结构解析以及意图后,我们就可以生成整个算子执行的过程,生成算子链,递归地执行算子和图引擎交互,做最后的推理; 图引擎:基于Neo4j 图引擎和简单正排索引; 排序:最后进行打分清洗排序以及业务化的定制,把最终的答案返回给用户。 Query解析:模板挖掘 强的假定:对于问答Query,一条三元组SPO,如果它的主实体Subject出现在了Query里面,并且它的Object出现在了Doc里面,我们假定这个query在说S和O之间的关系。Eg.刘德华的配偶是朱丽倩,如果刘德华出现在Query里,朱丽倩出现在了Doc里面,那我们就假定这个Query在说刘德华和朱丽倩的关系,他的意图就是在问配偶关系。 模板生成:通过这种方式我们能拿到很多这种Query+S+O的数据pair,这个Query即是在描述S和O的关系,这时只需要把Query中的主实体做槽位化,生成一个基础的模板; 噪声:基于这样的强假定会有很多噪声,但是基于搜索的海量数据下,聚合之后再做进一步的简化,把中间的一些通用词mask掉,生成通配,形成最后的模板+意图数据对;通过置信度打分排序后,头部模板质量可以得到控制。 Query解析:层次化模板匹配 简

文档评论(0)

小文文小库库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档