QQ浏览器智能问答技术探索实践.docxVIP

下载本文档

6
0
约9.56千字
约 27页
2022-06-30 发布于湖南
举报
版权申诉

QQ浏览器智能问答技术探索实践.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

QQ浏览器智能问答技术探索实践原创常景冬 DataFunTalk 2021-09-24 原文收录于话题 #原创精选 187 个内容 #腾讯 17 个内容 #智能问答 4 个内容分享嘉宾：常景冬腾讯高级研究员编辑整理：高同学?中国科学院大学出品平台：DataFunTalk 导读：近年来随着搜索、语音交互、智能客服等场景的不断进化，问答技术的应用越来越丰富，本文将会介绍智能问答在QQ浏览器搜索引擎上的相关工作，通过精准、快速满足用户检索意图帮助搜索引擎的智能化升级。搜索引擎从第一代由人工分类，到文本检索，到后面的整合分析，再到现在第四代智能搜索的概念,通过机器学习算法、NLP等技术来给用户呈现出更加全面，更加及时，更加精细化的结果，包括智能化的文本，以及结构化的知识，以及一些多模态的内容。搜索场景里的Query需求大概分成几个方面，第一类是导航类的需求，第二类是资源类的需求，第三类是信息类的需求，信息类的需求占的比例会比较大，问答就是信息类需求中的一种。在整体的搜索需求里，问答可以占到25~30%，如搜实体、搜关系、搜方法、搜因果等都可以通过问答的一些技术手段来满足。以上是我们的一些业务的问答形态，?包括：普通的图文内容、列表型答案内容、医疗法律等垂类内容、结构化数据内容、事实性短答案等等。接下来会分三条技术线条，每个线条展开一下重点模块，给大家分享一下这些业务落地的实际过程： KBQA：基于知识图谱的推理问答 DeepQA：基于通用文本挖掘的机器阅读理解问答 IRQA：基于FAQ问答库的检索式问答 01 KBQA Knowledge-Based QA 1.?什么是KBQA 知识图谱通过三元组的形式把知识组织成一张知识网络，里面包含着很多的实体关系和属性，当用户问一些结构化的知识的时候，比如说埃菲尔铁塔在哪里，直接通过里面的实体跟属性关系的查询，就可以找到目标答案；以及一些复杂的问题，需要在图谱中通过多条路径推理找到有支撑力的答案。 2.?解决方案要去完成KBQA这件事情，解决方案有很多，这里列举两个例子，第一个是结构化的推理，基于组合范畴语法、句法依存解析query结构，并将其转换成图引擎的表达式，再做进一步推理；另一种是端到端，基于神经网络，把原始的用户Query，一站式的从文本转换成图引擎表达，然后做查询得出答案；同时也有基于子图挖掘的一些重要的方法等等。但这些方法在不同的场景上的适配也不太一样，比如短文本的场景、长文本的场景以及一些多轮对话的场景。 3.?方案选择 QQ浏览器知识图谱，包含亿级别的实体，几十亿级别的SPO三元组，涵盖了人物，影视，医疗等等十几个大的领域。基于当前图谱现状结合，结合搜索的一些特性，最终选择结构化推理的方案。 ① 特点当前用户检索的表达通常比较短，甚至有一些简单的词堆砌，输入两三个词去完成一次检索。搜索里面大部分还是简单的SPO查询，也会有少量的嵌套查询和限定查询，但是量比较少。搜索的长尾化会很严重，也需要去考虑长尾化品类拓展的成本问题。最后最重要就是需要灵活多变，要求强的可解释性，遇到问题时需要批量收敛；搜索的产品形态会比较多样化，面对业务的定制要有更深更灵活的定制需求。 ② 结构化推理方案结合这些特点，我们最终选择推理化的方案，主要包含四个模块，Query解析，算子引擎，图引擎以及排序： Query解析：首先AC自动机识别Mention，通过NEL做双实体链指，识别主成分后，通过嵌套模板及基础意图模型进行层次化解析算子引擎：有了成分嵌套解析、结构解析以及意图后，我们就可以生成整个算子执行的过程，生成算子链，递归地执行算子和图引擎交互，做最后的推理；图引擎：基于Neo4j 图引擎和简单正排索引；排序：最后进行打分清洗排序以及业务化的定制，把最终的答案返回给用户。 Query解析：模板挖掘强的假定：对于问答Query，一条三元组SPO，如果它的主实体Subject出现在了Query里面，并且它的Object出现在了Doc里面，我们假定这个query在说S和O之间的关系。Eg.刘德华的配偶是朱丽倩，如果刘德华出现在Query里，朱丽倩出现在了Doc里面，那我们就假定这个Query在说刘德华和朱丽倩的关系，他的意图就是在问配偶关系。模板生成：通过这种方式我们能拿到很多这种Query+S+O的数据pair，这个Query即是在描述S和O的关系，这时只需要把Query中的主实体做槽位化，生成一个基础的模板；噪声：基于这样的强假定会有很多噪声，但是基于搜索的海量数据下，聚合之后再做进一步的简化，把中间的一些通用词mask掉，生成通配，形成最后的模板+意图数据对；通过置信度打分排序后，头部模板质量可以得到控制。 Query解析：层次化模板匹配简