基于知网的汉语问句分类.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于知网的汉语问句分类

基于知网的汉语问句分类∗ 12 1 1 1 贾可亮 ,樊孝忠 ,陈康 ,许进忠 1. 北京理工大学计算机学院,北京(100081 ) 2. 山东经济学院信息管理学院,山东济南(250014 ) 摘 要:提出了一种基于知网语义相似度和语义相关度的问句分类新方法,该方法主要使用 句子的语义信息,利用知网的义原分类树计算问句之间的相似度和利用语义场计算句子间相 关度,引入最近邻算法进行问句分类。实验结果表明了该方法的有效性,利用 TREC2004 问 句集翻译的中文问句集进行测试,在6 个小类的分类精度达到了相似度分类88.8%和相关度 分类85.8%。 关键词:问句分类、知网、语义相似度、语义相关度 1.引言 随着互联网技术的迅速发展,互联网上的信息越来越丰富,但是人们发现通过搜索引擎 来获取与用户查询相关的信息也越来越困难。传统的搜索引擎是用户提供一系列与查询相关 的关键词,返回相关的网页列表。但在实际情况下用户可能更倾向于用自然语言描述问题。 例如“第一个登上月球的人是谁?” 自动问答系统就是对于自然语言问题能够从大规模的文 本集中抽取出精确答案的系统,是目前自然语言处理研究的一个热点,也是TREC 会议最受 关注的主题之一。 一个典型的问答系统包括:问句分析,信息检索,侯选答案的抽取和答案选择四个主要 模块。问句分析主要包括问句分类,关键词提取等;信息检索模块主要是利用问句分析的结 果检索相关的文本、段落或句子;侯选答案抽取模块就是在第二步的基础上抽取侯选答案; 答案选择模块就是对侯选答案进行排序,并选择出最佳答案。 问句分类就是根据答案的类型把问题划分为相应的语义类别,是问句分析中的一个重要 模块。这主要体现在两个方面:第一,问句分类能够决定答案的语义,有效地减少侯选答案 的空间。例如,当用户查询“第一个登上月球的人是谁?”这个问题属于特定人物类,在答案 抽取时系统主要考虑人名,有效地减少了侯选答案的空间。第二,问句分类能够决定答案选 择的策略,根据不同的问题类型调用不同的答案选择策略,因为没有一种方法能够适用于所 有问题。由此可见问句分类是问答系统的重要组成部分,其结果直接影响问答系统的质量。 , , , 对于问句分类的研究,,最初的方法主要是基于规则的方法[1 2 3 4] 。例如下面的两条 规则来自于[4]: What {is|are} prase_to_define? What is the definition of prase_to_define ? 这两个问句都是问定义的。手工编写规则的方法耗费了大量的人力和时间,并且其可移 植性差。手工编写的规则在一个问句集上效果很好,而在另一个问句集上效果可能很差,需 要重新修改这些规则,造成规则修改维护的困难。 , , , , 现在基于统计的机器学习方法占到了主导地位,如 SVM[5 6 7 8] ,SNoW[9 10],最大熵 模型[11] [12] [9,10] ,改进贝叶斯模型 等。其中Xin Li 等人提出层次分类的思想,主要选择词汇、 词性、语块(chunk )、命名实体(NE )、中心语块(head chunk )、相关词(related word )作 为特征,利用SNoW 分类器,对6 个大类和50 个小类分类的精确率分别达到了91%和84.2%。 ∗ 本课题得到教育部博士点基金资助(No.20050007023 )。 -1- Dell Zhang 提出采用SVM[5]进行分类,利用tree kernel 提取特征,最终达到6 个大类90.0% 的分类精度。李鑫[13]等提出的利用句法信息

文档评论(0)

qwd513620855 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档