自动问答研究进展、现状及趋势.pdfVIP

下载本文档

4
0
约9.9千字
约 4页
2023-08-05 发布于河南
举报
版权申诉

自动问答研究进展、现状及趋势.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

⾃动问答研究进展、现状及趋势（摘⾃《中⽂信息处理发展报告（2016）》） 1. 任务定义、⽬标和研究意义⾃动问答（Question Answering, QA）是指利⽤计算机⾃动回答⽤户所提出的问题以满⾜⽤户知识需求的任务。不同于现有搜索引擎，问答系统是信息服务的⼀种⾼级形式，系统返回⽤户的不再是基于关键词匹配排序的⽂档列表，⽽是精准的⾃然语⾔答案。近年来，随着⼈⼯智能的飞速发展，⾃动问答已经成为倍受关注且发展前景⼴泛的研究⽅向。⾃动问答的研究历史可以溯源到⼈⼯智能的原点。1950年，⼈⼯智能之⽗阿兰图灵（Alan M. Turing）在《Mind》上发表⽂章《Computing Machinery andIntelligence》，⽂章开篇提出通过让机器参与⼀个模仿游戏（Imitation Game）来验证“机器”能否“思考”，进⽽提出了经典的图灵测试（Turing Test），⽤以检验机器是否具备智能。同样，在⾃然语⾔处理研究领域，问答系统被认为是验证机器是否具备⾃然语⾔理解能⼒的四个任务之⼀（其它三个是机器翻译、复述和⽂本摘要）。⾃动问答研究既有利于推动⼈⼯智能相关学科的发展，也具有⾮常重要的学术意义。从应⽤上讲，现有基于关键词匹配和浅层语义分析的信息服务技术已经难以满⾜⽤户⽇益增长的精准化和智能化信息需求，已有的信息服务范式急需⼀场变⾰。 2011 年，华盛顿⼤学图灵中⼼主任 Etzioni 在 Nature 上发表的《Search Needs a Shake-Up》中明确指出：在万维⽹诞⽣ 20 周年之际，互联⽹搜索正处于从简单关键词搜索⾛向深度问答的深刻变⾰的风⼝浪尖上。以直接⽽准确的⽅式回答⽤户⾃然语⾔提问的⾃动问答系统将构成下⼀代搜索引擎的基本形态。同⼀年，以深度问答技术为核⼼的 IBM Watson ⾃动问答机器⼈在美国智⼒竞赛节⽬ Jeopardy 中战胜⼈类选⼿，引起了业内的巨⼤轰动。Watson ⾃动问答系统让⼈们看到已有信息服务模式被颠覆的可能性，成为了问答系统发展的⼀个⾥程碑。此外，随着移动互联⽹崛起与发展，以苹果公司 Siri、Google Now、微软 Cortana 等为代表的移动⽣活助⼿爆发式涌现，上述系统都把以⾃然语⾔为基本输⼊⽅式的问答系统看做是下⼀代信息服务的新形态和突破⼝，并均加⼤⼈员、资⾦的投⼊，试图在这⼀次⼈⼯智能浪潮中取得领先。当然，现有⾃动问答技术还不完美，仍⾯临许多具体问题和困难。本⽂对⾃动问答的主要研究内容、⾯临的科学问题和主要困难，以及当前采⽤的主要技术、现状和未来发展的趋势，进⾏概要介绍。 2. 研究内容和关键科学问题⾃动问答系统在回答⽤户问题时，需要正确理解⽤户所提的⾃然语⾔问题，抽取其中的关键语义信息，然后在已有语料库、知识库或问答库中通过检索、匹配、推理的⼿段获取答案并返回给⽤户。上述过程涉及词法分析、句法分析、语义分析、信息检索、逻辑推理、知识⼯程、语⾔⽣成等多项关键技术。传统⾃动问答多集中在限定领域，针对限定类型的问题进⾏回答。伴随着互联⽹和⼤数据的飞速发展，现有研究趋向于开放域、⾯向开放类型问题的⾃动问答。概括地讲，⾃动问答的主要研究任务和相应关键科学问题如下。 2.1 问句理解给定⽤户问题，⾃动问答⾸先需要理解⽤户所提问题。⽤户问句的语义理解包含词法分析、句法分析、语义分析等多项关键技术，需要从⽂本的多个维度理解其中包含的语义内容。在词语层⾯，需要在开放域环境下，研究命名实体识别（Named Entity Recognition）、术语识别（Term Extraction）、词汇化答案类型词识别（Lexical Answer TypeRecognition）、实体消歧（Entity Disambiguation）、关键词权重计算（Keyword Weight Estimation）、答案集中词识别（Focused Word Detection）等关键问题。在句法层⾯，需要解析句⼦中词与词之间、短语与短语之间的句法关系，分析句⼦句法结构。在语义层⾯，需要根据词语层⾯、句法层⾯的分析结果，将⾃然语⾔问句解析成可计算、结构化的逻辑表达形式（如⼀阶谓词逻辑表达式）。 2.2 ⽂本信息抽取给定问句语义分析结果，⾃动问答系统需要在已有语料库、知识库或问答库中匹配相关的信息，并抽取出相应的答案。传统答案抽取构建在浅层语义分析基础之上，采⽤关键词匹配策略，往往只能处理限定类型的答案，系统的准确率和效率都难以满⾜实际应⽤需求。为保证信息匹配以及答案抽取的准确度，需要