中文问答系统答案抽取研究与实现.pptVIP

  • 112
  • 0
  • 约3.58千字
  • 约 25页
  • 2017-06-12 发布于河南
  • 举报
中文问答系统答案抽取研究与实现

--吉林大学2010年硕士论文;;;人们期待更快速准确的搜索技术出现; 据统计,人们花费在答案抽取的时间很长; 传统的搜索引擎有很多弊端; 问答系统因此产生。 ; 问答系统主要包括问题分析、信息检索和答案抽取3个主要模块。 问题分析模块的主要工作包括对问题进行分类、抽取问题的关键词、对关键词进行扩展等; 信息检索模块的主要任务是对文档库或网络搜索引擎进行检索,返回一些与问题相关的文档或网页; 答案抽取模块的主要任务则是对信息检索模块得到的候选文档或网页进行处理,得到问题的候选答案集,并通过一定的算法从候选答案集中抽取出正确答案。;答案抽取的基本步骤一般如下: ①把从信息检索模块得到的候选文档或网页进行处理,切分成单个句子,作为候选答案集。 ②根据问题的类型,对候选答案集进一步处理,排除兀余的句子,减少候选答案的空间。 ③应用相似度计算算法,计算候选答案句与问题句的相似度。 ④根据相似度的高低对候选答案进行排序,返回相似高的句子。 对于答案为一个词的问题,根据问题的类型,采用相应的抽取策略,对返回的答案句进行分析,可能需要进行命名实体的识别工作,来返回精确的答案。 ;本文所要做的具体工作: 1.问题分析模块的处理:通过改进规则对问题进行分类,通过对问句进行词法分析和句法分析,抽取和扩展问题关键词,必要时对重写问句,为答

文档评论(0)

1亿VIP精品文档

相关文档