一种融合多种语义特征的中文问题分类方法.pdfVIP

一种融合多种语义特征的中文问题分类方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 42卷 第 5期 太 原 理 工 大 学 学 报 V01.42 No.5 2011年 9月 J0URNAL0FTAIYUAN UNIVERSITY 0FTECHN0L0GY Sep. 2011 文章 编 号 :1007—9432(2011)05—0494—05 一 种融合多种语义特征的中文问题分类方法 段利国,陈俊杰,牛彦清 (太原理工大学 计算机科学与技术学院,太原 030024) 摘 要 :针 对 中文 问题 分类 方 法 中提取 语 义信 息不 准确 和 特征 向量 维数 过 高导 致 处理 速度 过 慢 的 问题 ,提 出 了一种 融合 多种语 义特 征 的 问题 分 类方 法 。借助 HowNet,兼 顾 问句 的 句 法和语 义 信 息 ,选取 问题疑 问词 、核 心词 的主要 义原 、命名 实体 、名词 单 /复数等 四种 分类 特征 ,并在 义原 的提 取 过程 中加入 词 义 消岐技 术 ,对 事 实疑 问句进行 分 类 。在 某 高校 信 息检 索研 究室的 中文 问题 集上 进 行 实验 ,实验 结果证 明 了该 方法 的有效 性 ,大 类准确 率 92.82 ,小类 准确 率 84.45 ,取 得 了较 好 的 效 果 。 关 键词 :问题 分 类 ;疑 问词 ;义原 ;命名 实体 ;支持 向量机 中图分 类号 :TP391 文献 标识 码 :A 识别问题所期望的答案语义类型,称为问题分 的分类算法 ,二是提取合适 的分类特征 ,三是要有好 类l1]。例如 ,问题 “哪个 国家面积最大?”的预期答案 的训练语料 。文献[3]采用贝叶斯分类算法,提取问 类型是国家;问题 “孙 中山生于哪一年?”的预期答案 题的主干词和疑问词及其附属成分作为分类特征进 类型是 日期 。问题分类是 中文问答系统中问题分析 行分类 ,没有充分考虑问句 的语义信息,而且因主干 模块的一个重要步骤 ,对后期的信息检索及答案抽 词数 目众多导致特征 向量维数过高需要较长的处理 取具有很强的指导意义_2]。有 了答案的语义类型 , 时间。文献[43采用最大熵模型,主要选取问题 的疑 可以有针对性地制定答案抽取策略,提高答案抽取 问词 、句法结构 、疑问意向词及其在知网中的首义原 的准确率。 作为分类特征进行分类 ,虽然考虑了问句的语义信 一 些简单的问句通过疑问词就可以直接决定问 息,但是 ,因为首义原 的抽象程度过高 ,不能精确表 句的类型 ,如英语 中典型 的 5WlH(What,Who, 达问句的语义信息,反而影响分类效果。 When,Where,why,How)的 问题 ,在 中文 中,也 在综合分析上述分类方法 的基础上 ,本文选取 有类似的 “谁”,“~tlUL”这样的疑 问词 。但这种方法 问题疑问词、核心词 的主要义原、命名实体和名词 粒度太粗 ,难以做到对问题类 型的准确划分。为了 单/复数四种问句分类特征,采用支持向量机学习算 满足问答系统的实际需求 ,需要有更加精细和具体 法对事实疑问句进行分类 ,在哈尔滨工业大学信息 的分类方法 。 检索研究室的中文 问题集上的实验表 明,既较准确 一 种常见 的分类方法是基于模式匹配的方法, 地提取了问句的语义特征 ,又 明显降低了特征 向量 该方法对每个类别制定大量的规则 ,通过问题和规 的维数 ,取得了较好的分类效果。 则的模式匹配来确定问题的类别 。这种方法的缺点 是制定规则工作量太大,而且有些 问题可能没有合 1 问题分类体系 适的规则去覆盖 。另一种是基于统计 的方法 ,类似 问题分类可以表示为一种映射函数 : 于

文档评论(0)

smdh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档