问答系统总结.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
问答系统总结

问答系统总结   摘要:自动问答系统是网络高速发展的必然产物。论文从自动问答系统的定义入手,系统的讨论了其发展现状以及分类,然后对自动问答系统的原理和相关核心技术进行了阐述,着重说明了中文问答系统面临的难点。对自动问答系统核心的三个模块: 信息检索、问题处理和答案抽取作了深入的分析并系统的研究了它的关键技术,并对其应用前景和发展趋势做了展望。   关键词:自动问答 系统发展现状 分类 基本原理   中图分类号:R259 文献标识码:A 文章编号:1007-9416(2015)04-0069-01   1 引言   自动问答系统(Automatic Question and Answering System),简称问答系统(QA),又称为人机对话系统(Humanmachineconversation,HMC),是指这样一个信息检索系统:用户输入以自然语言形式描述的提问(例如:中国共产党哪一年成立?),机器系统从大量的数据中查找出准确、简洁、人性化的回答(例如:1921年)并反馈给用户。   自动问答是自然语言处理领域的一个重要方向,旨在让用户直接用自然语言提问并获得答案。例如,用户询问“交大在哪儿?”,问答系统回答“上海市闵行区东川路800号”。传统的搜索引擎是根据关键词检索并将返回大量相关文档集合,需要用户亲自去查找自己相关的资料。从这样的比较可以看到,问答系统的实现将使用户在海量数据中查找相关资料时节省大量的时间。   2 问答系统的发展现状   无论是苹果公司iPhone上火热的应用Siri,还是在美国电视竞答节目Jeopardy中打败人类冠军的Watson,都与自动问答直接相关。随着广泛的计算机语言学的理论的继续发展,文本理解和问题回答的研究也得到了发展,期间不断地有新的QA系统出现,如UC系统。在当时由于可用的检索数据很少并且难以获得,QA系统都从手工整理的知识库中寻找答案,这就限制了这些系统只能应用于专有领域的问答。   由于TREC只提供面向英语的QA评测,在加上中文的复杂性,中文问答系统研究只能说是刚刚起步,这是一个十分值得研究的领域。   目前与QA研究相关的重要国际会议主要还有ACM SIGIR、ACL和TAC等。ACM SIGlR是信息检索最具影响力的国际学术会议,而ACL则是自然语言处理方面的国际顶级会议,它们为自动问答的研究提供了很好的展示平台。TAC是由NIST组织的一个新的会议,该会议主要主持QA Track,继续推动QA的研究。   3 问答系统的分类   传统的自动问答系统包括三个主要部分:问题分析、信息检索和答案抽取。   陈谷川和陈豫认为自动问答系统可以分为以下三类:   (1)直接基于文档检索的自动问答系统: 这种系统使用文档检索技术,针对询问的关键词检索出最为接近的文档。这类系统使用各种途径来判断用户的询问语句中的关键词,但在建立询问或者提交答案的过程中没有使用任何自然语言处理技术。   (2)基于IE 的自动问答系统:这种系统把要解决的问题看作是一次信息抽取,从文档中抽取所需要的实体类型的信息。一般是把信息填入预先定制好的模板,或者是在定义了的问题集中找出匹配的答案。   (3)基于询问处理和命名实体抽取技术的系统:这类系统使用自然语言处理技术并对待参考的答案进行实体识别。用到的主要技术包括浅层句法分析、询问类型识别、命名实体识别等。   4 问答系统的基本原理   开放领域问答系统是包含知识存储、知识表示、信息抽取、自然语言处理等多方面研究技术的综合性应用系统。无论何种问答系统,它们都具有相似的体系结构,一般包括三个主要部分:问题处理、信息检索和答案抽取。其基本原理如图1所示。   5 问答系统的核心技术   浅层句法分析:该技术是近年来自然语言处理领域出现的一种新的语言处理策略。在问题处理阶段通过该技术对用户提出的问题进行分析,识别出问题的名词短语、动词短语,得出句法树。在信息检索结束阶段依靠该技术对检索出来的包含答案的片断进行浅层句法分析并进行实体匹配。浅层句法分析的主要任务是语块的识别和分析。   询问类型识别:经过浅层句法分析形成分列树,其好处在于可以根据问题的预期答案进行识别、分类。一般是根据语义进行分类比如分成Object、Person和Time等。而对应的问题通常是What、Who、How long 等。   命名实体识别:命名实体是提取句子中有确切含义的名词。命名实体识别目的是将一个文档中的所有词划分到若干种类别中,如人名、地名、组织机构名、数字、日期、时间、百分比等。命名实体识别的方法包括HMM、最大熵、条件随机域、基于类的NE识别、决策树方法等。命名实体识别是自动问答系统的重要基础工具。   检索技术:在数据库或In

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档