- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于概念簇的文本分类算法 - 图书情报工作
第57卷 第15期 2013年8月
基于概念簇的文本分类算法
■ 马甲林 刘金岭 金春霞
[摘 要]针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等
缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量模型 SCVM
(SemanticConceptVectorModel)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧,
提出基于概念簇的文本分类算法TCABCC(TextClassificationAlgorithmBasedontheConceptofClusters),通过改
进传统KNN,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇。实验结果表
明,该算法构造的分类器在效率和性能上均比传统KNN有较大的提高。
[关键词]文本分类 语义概念向量 概念簇 KNN 知网
[分类号]TP391.1
DOI:10.7536/j.issn.0252-3116.2013.15.021
文本分类是自然语言处理领域内的一个重要研究 排歧,构建了基于语义概念向量的文本表示模型,然后
分支。目前常采用向量空间模型(VSM)来表示文本, 提出了基于概念簇的文本分类算法。该算法通过改进
由于汉语包含词汇量较大,仅《现代汉语词典》中收录 KNN分类算法,使各个类别的训练样本形成类别概念
的常用词就达8万多个,VSM模型必然产生向量高维 簇,通过计算待分类文本概念向量和类别概念簇相似
和稀疏问题[1-2];另外,以VSM为基础的大多数基于 度,选取相似度超过某个阈值的最大类别概念簇所代
统计的分类算法最基本的前提假设是向量之间两两正 表的类别作为该文本被划归的类别。该算法在一定程
交,往往忽略特征之间的语义联系,分类过程又受到同 度上解决了传统文本分类算法在 VSM模型表示下出
义词和多义词的干扰,导致分类精度和效率很难进一 现的向量高维和稀疏以及缺乏语义信息等缺陷所导致
[3-5] 的分类效率低和性能不高的问题。
步提高 。
不少学者提出了借助知识库表示文本的模型,以
1 语义概念向量模型
克服传统VSM表示文本的缺陷问题。国内最著名的
知识库是中国科学院董振东教授主持创建的知网 文本处理的首要问题是文本表示,本研究以知网
[6]
(HowNet)。熊忠阳等 利用知网对文本向量进行二 为知识库,构建基于语义概念的向量模型 SCVM
次降维后再使用KNN分类,虽然在分类效率和精度上 (SemanticConceptVectorModel)。
都有所提高,但缺点是未对 KNN算法进行有效改进, 1.1 语义类定位
[7] 知网是以汉语和英语词汇所代表的概念为描述对
所以收效有限。刘海峰等 在传统VSM模型下使用
类别选择的方法来改进 KNN,也提高了分类效率,但 象,以揭示概念与概念之间以及概念所具有的属性之
没有解决VSM模型自身的缺陷。另外,国内也有一些 间的关系为基本内容的常识知识库(知网相关信息详
研究人员在文本分类、聚类中利用知网概念表示文本, 见www.keenage.com)。在知网中,词汇语义描述被定
但这些研究大多是将文本表示成孤立的概念列表,没 义为概念,概念又是通过义原来描述的;相比词汇的规
能充分利用知网知识库中概念间的语义关系。 模,义原的数量很少。知网定义了1500多个义原,其
本研究利用知网知识库,首先通过关键词到概念 结构为树形组织,语义相似程度可以通过树形结构来
的映射实现同义词归并,再利用语义类定位对多义词 体现,语义越接近,义原在树内越靠近。概念定义
本文系江苏省教育厅高校哲学社会科学项目“网络资源个性化信息服务模式研究”(项目编号:2012SJD870001)研究成果之一
您可能关注的文档
- 国立屏东教育大学教学活动设计 - 安庆国小.doc
- 国立彰化启智学校103学年度第3次中等教育阶段身心障碍组代理教师 .doc
- 国立彰化特殊教育学校103学年度第二学期中等教育阶段身心障碍组 .doc
- 国立屏东科技大学休闲运动保健系硕士班休闲经营专题讨论授课规范.ppt
- 国立政治大学活动旗帜、布条及广告物设置作业要点.pdf
- 国立政治大学等大专校院对于实施二代健保之疑义及建议 - 高师大.pdf
- 国立故宫博物院为民服务白皮书.doc
- 国立清华大学服务科学所服务设计课程.pdf
- 国立故宫博物院文物数位化之发展 - 国立中正大学资讯工程学系暨研究所.pdf
- 国立澎湖科技大学101学年度创意啦啦舞大赛讲评总表(一) 名次及系名 .doc
文档评论(0)