网站大量收购独家精品文档,联系QQ:2885784924

基于概念簇的文本分类算法 - 图书情报工作.pdf

基于概念簇的文本分类算法 - 图书情报工作.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于概念簇的文本分类算法 - 图书情报工作

第57卷 第15期 2013年8月 基于概念簇的文本分类算法 ■ 马甲林 刘金岭 金春霞 [摘 要]针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等 缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量模型 SCVM (SemanticConceptVectorModel)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧, 提出基于概念簇的文本分类算法TCABCC(TextClassificationAlgorithmBasedontheConceptofClusters),通过改 进传统KNN,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇。实验结果表 明,该算法构造的分类器在效率和性能上均比传统KNN有较大的提高。 [关键词]文本分类 语义概念向量 概念簇 KNN 知网 [分类号]TP391.1   DOI:10.7536/j.issn.0252-3116.2013.15.021   文本分类是自然语言处理领域内的一个重要研究 排歧,构建了基于语义概念向量的文本表示模型,然后 分支。目前常采用向量空间模型(VSM)来表示文本, 提出了基于概念簇的文本分类算法。该算法通过改进 由于汉语包含词汇量较大,仅《现代汉语词典》中收录 KNN分类算法,使各个类别的训练样本形成类别概念 的常用词就达8万多个,VSM模型必然产生向量高维 簇,通过计算待分类文本概念向量和类别概念簇相似 和稀疏问题[1-2];另外,以VSM为基础的大多数基于 度,选取相似度超过某个阈值的最大类别概念簇所代 统计的分类算法最基本的前提假设是向量之间两两正 表的类别作为该文本被划归的类别。该算法在一定程 交,往往忽略特征之间的语义联系,分类过程又受到同 度上解决了传统文本分类算法在 VSM模型表示下出 义词和多义词的干扰,导致分类精度和效率很难进一 现的向量高维和稀疏以及缺乏语义信息等缺陷所导致 [3-5] 的分类效率低和性能不高的问题。 步提高 。   不少学者提出了借助知识库表示文本的模型,以 1 语义概念向量模型 克服传统VSM表示文本的缺陷问题。国内最著名的 知识库是中国科学院董振东教授主持创建的知网   文本处理的首要问题是文本表示,本研究以知网 [6] (HowNet)。熊忠阳等 利用知网对文本向量进行二 为知识库,构建基于语义概念的向量模型 SCVM 次降维后再使用KNN分类,虽然在分类效率和精度上 (SemanticConceptVectorModel)。 都有所提高,但缺点是未对 KNN算法进行有效改进, 1.1 语义类定位 [7]   知网是以汉语和英语词汇所代表的概念为描述对 所以收效有限。刘海峰等 在传统VSM模型下使用 类别选择的方法来改进 KNN,也提高了分类效率,但 象,以揭示概念与概念之间以及概念所具有的属性之 没有解决VSM模型自身的缺陷。另外,国内也有一些 间的关系为基本内容的常识知识库(知网相关信息详 研究人员在文本分类、聚类中利用知网概念表示文本, 见www.keenage.com)。在知网中,词汇语义描述被定 但这些研究大多是将文本表示成孤立的概念列表,没 义为概念,概念又是通过义原来描述的;相比词汇的规 能充分利用知网知识库中概念间的语义关系。 模,义原的数量很少。知网定义了1500多个义原,其   本研究利用知网知识库,首先通过关键词到概念 结构为树形组织,语义相似程度可以通过树形结构来 的映射实现同义词归并,再利用语义类定位对多义词 体现,语义越接近,义原在树内越靠近。概念定义 本文系江苏省教育厅高校哲学社会科学项目“网络资源个性化信息服务模式研究”(项目编号:2012SJD870001)研究成果之一

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档