中文问答系统中问题理解算法研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文问答系统中问题理解算法研究

中文问答系统中问题理解算法研究   摘要:问答系统能够用准确、简洁的答案回答用户提出的问题。问题理解是其首要的分析工作。本文应用了基于规则的问题分类方法,提出了一种基于维基百科关键词扩展和基于同义词的关键词扩展相结合,并对问题中的关键词进行重要性标识的问题理解方法。实验结果证明,该方法对提高问题分类的准确率有较好的效果。   关键词:问答系统 问题理解 问题分类 信息提取   中图分类号:TP391.1 文献标识码:A 文章编号:1007-9416(2012)12-0101-02   1、引言   自动问答系统是基于信息检索系统的高级形式,用户用自然语言描述的句子作为检索式,返回结果为用户所需问题的直接答案。问答系统主要包括三个部分:问题理解,文档检索和答案抽取。问题理解模块对问题进行分类的同时提取出关键信息;信息检索模块根据问题理解部分提供的关键词进行检索,找到相关的文本内容;答案抽取模块的主要工作是对检索的结果进行过滤,抽取问题的精确答案,而后对候选答案按相应的算法进行排序[1]。   其中,问题理解对自动问答系统的整体性能至关重要。首先,对用户所提问题分类,对于不同类型的问题,定制对应的信息检索和答案抽取规则;其次,分析问题,提取出问题的关键词。问题分类通常采用基于规则的问题分类方法和基于统计的分类方法[2]。基于规则的方法在问题的类别定义好后,相应的规则比较容易定制,因此分类的效果较好。还因为不需要训练就能够直接分类,属于模式匹配的范畴,所以分类的效率相对较高;基于统计的问题分类方法主要有De11 Zhang等人提出的利用tree kernel提取特征的支持向量机(SVM)算法[3],将问题划分为6大类,分类精度达到了90.0%。还有将词和词性作为特征的贝叶斯分类模型问题分类方法[4]。IBM TREC-9 system利用结合词法和句法特征的最大熵模型[5],对3300个标注好的问题进行了训练,测试结果达到了90.95%的准确率。   本文应用了基于规则的问题分类方法,在此基础上提出了一种基于维基百科关键词扩展和基于同义词的关键词扩展相结合,以及对问题中的关键词进行重要性标识的问题理解方法。   2、问题分类   问题类别的数量太多会造成类别间的差别过小,使得处理过程混淆而将把问题的类别分错。如果问题类别的数量太少又覆盖不了所有的问题。本文结合实验比较将问题的类别分为9个大类(表1)。   根据上述拟定的问题类别本文采用如下分类方法:   首先归纳出9个问题类别中特有的类别词,按照其主要程度给予其不同的权重,最重要的权重为1,次要的权重为0.5,剩余的权重为0.2。   然后对问题分词并进行词性标注且去除问题中的停用词。根据关键词匹配的方法,将其权重值累加,计算出问题分属各类别的权重的和值。   最后取权重的和值最高的问题类别,若和值大于事前设定好的阈值,则判定问题属于该类别,否则把该问题归为事件类。问题分类的流程图如下所示:   3、问题的关键信息提取   关键信息提取是问题理解模块的重心,本文对问题中关键信息提取采用了基于维基百科关键词扩展和基于同义词的关键词扩展相结合,以及对问题中的关键词进行重要性标识相结合的算法:   (1)对分过词且标注好词性的问题进行停用词过滤。   (2)过滤掉问题中出现的比如 “请问”,“请比较”等一些常见的客套词。   (3)问题的关键信息一般为实词,因此需要根据词语的词性过滤虚词,仅仅留下名词,形容词,动词,数量词,副词,时间词。   (4)将过滤后的剩余词进行重要性标注,按照重要性分为两类,第一类是必须包含词:是在信息检索和答案抽取环节中必须要出现的关键词,如果缺少这类词就会失去问题的本意。例如,问题“瓦良格号什么时候服役?”中,“瓦良格号”就非常重要,若缺失了它,其它的服役时间根本不是我们所关心的问题。第一类词主要有名词 (一般是地名,人名,专有名词和机构名)构成,我们将其用“M”标记。第二类是去除第一类词后词,这些词没有第一类词关键,检索出的结果中也可不包含这类词。我们将其用“S”来标记。第二类词主要起修饰的作用,通常为形容词,副词,数量词,表示时间的词等。   (5)对经过重要性标注的关键词进行同义词扩展。因为往往问题和答案中会出现意义相同的不同词,比如“电脑”和“计算机”就是一对同义词,有可能分别出现在问题和答案中接下来再对扩展的词进行标注,被标记为“M”的词的扩展词标记为“Me”,被标记为“S”的词的扩展词标记为“Se”[6]。   (6)最后再将被标记为“M”的词进行基于维基百科[7]的关键词扩展,维基百科中的中文词条数量巨大,且意思相同和相近词条之间有关联性,通过维基百科的词条找出对应标记为“M”的词的扩展词条标记为“M

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档