一种融合多种语义特征的中文问题分类方法.pdfVIP

下载本文档

4
0
约1.49万字
约 5页
2017-09-12 发布于安徽
举报
版权申诉

一种融合多种语义特征的中文问题分类方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第 42卷第 5期太原理工大学学报 V01．42 No．5 2011年 9月 J0URNAL0FTAIYUAN UNIVERSITY 0FTECHN0L0GY Sep． 2011 文章编号：1007—9432(2011)05—0494—05 一种融合多种语义特征的中文问题分类方法段利国，陈俊杰，牛彦清 (太原理工大学计算机科学与技术学院，太原 030024) 摘要：针对中文问题分类方法中提取语义信息不准确和特征向量维数过高导致处理速度过慢的问题，提出了一种融合多种语义特征的问题分类方法。借助 HowNet，兼顾问句的句法和语义信息，选取问题疑问词、核心词的主要义原、命名实体、名词单／复数等四种分类特征，并在义原的提取过程中加入词义消岐技术，对事实疑问句进行分类。在某高校信息检索研究室的中文问题集上进行实验，实验结果证明了该方法的有效性，大类准确率 92．82 ，小类准确率 84．45 ，取得了较好的效果。关键词：问题分类；疑问词；义原；命名实体；支持向量机中图分类号：TP391 文献标识码：A 识别问题所期望的答案语义类型，称为问题分的分类算法，二是提取合适的分类特征，三是要有好类l1]。例如，问题 “哪个国家面积最大?”的预期答案的训练语料。文献[3]采用贝叶斯分类算法，提取问类型是国家；问题 “孙中山生于哪一年?”的预期答案题的主干词和疑问词及其附属成分作为分类特征进类型是日期。问题分类是中文问答系统中问题分析行分类，没有充分考虑问句的语义信息，而且因主干模块的一个重要步骤，对后期的信息检索及答案抽词数目众多导致特征向量维数过高需要较长的处理取具有很强的指导意义_2]。有了答案的语义类型，时间。文献[43采用最大熵模型，主要选取问题的疑可以有针对性地制定答案抽取策略，提高答案抽取问词、句法结构、疑问意向词及其在知网中的首义原的准确率。作为分类特征进行分类，虽然考虑了问句的语义信一些简单的问句通过疑问词就可以直接决定问息，但是，因为首义原的抽象程度过高，不能精确表句的类型，如英语中典型的 5WlH(What，Who，达问句的语义信息，反而影响分类效果。 When，Where，why，How)的问题，在中文中，也在综合分析上述分类方法的基础上，本文选取有类似的 “谁”，“~tlUL”这样的疑问词。但这种方法问题疑问词、核心词的主要义原、命名实体和名词粒度太粗，难以做到对问题类型的准确划分。为了单／复数四种问句分类特征，采用支持向量机学习算满足问答系统的实际需求，需要有更加精细和具体法对事实疑问句进行分类，在哈尔滨工业大学信息的分类方法。检索研究室的中文问题集上的实验表明，既较准确一种常见的分类方法是基于模式匹配的方法，地提取了问句的语义特征，又明显降低了特征向量该方法对每个类别制定大量的规则，通过问题和规的维数，取得了较好的分类效果。则的模式匹配来确定问题的类别。这种方法的缺点是制定规则工作量太大，而且有些问题可能没有合 1 问题分类体系适的规则去覆盖。另一种是基于统计的方法，类似问题分类可以表示为一种映射函数：于