文本聚类中的特征选择方法.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本聚类中的特征选择方法.pdf

第 29卷 第2期 吉首大学学报 (自然科学版) VD1.29 No.2 2008年 3月 J~naalofJishouUniversity(NaturalScienceEdition) Mar.2008 文章编号:1007—2985(2008)02—0039—03 文本聚类中的特征选择方法 龚 静 ,曾建一 (湖南环境生物职业技术学院信息技术系,湖南 衡阳 421005) 摘 要:介绍了3种用于文本聚类的特征选择方法:文档频度、单词权、单词熵.用一个中文文本语料库对这3种特征选 择方法进行了比较实验,实验结果表明在文本聚类中单词权的特征选择方法具有最好的选择结果. 关键词:特征选择;文本聚类;中文文本 中图分类号:TP301 文献标识码:A 文本聚类基于 “聚类假设”,相关文本之间的相似性 比无关文本之间的相似性更大.文本聚类是一种无指导的文本分 类 ,它将一个文本集分成若干称为簇(cluster)的子集,每个簇中的文本之间具有较大的相似性 ,而簇之间的文本具有较小的 相似性 .文本聚类在大规模文本集的组织与浏览、文本集层次归类的自动生成等方面都具有重要的应用价值 .特征选择是 用机器学习方法进行文本聚类的首要任务和关键 .进行或不进行特征选择对聚类时间、聚类准确性都有显著的差别,而且 聚类的算法和实现的复杂性随着模式空间维数的变大而迅速增加.因此,选择尽量少的特征表达出尽可能多的信息量,可 以减少聚类时间,也可提高聚类准确性 . 1 文本预处理 文本预处理是文本处理中最基本的过程.首先将文本按照一定的算法进行分词,经过分词,文档变成离散的、无序的词 条集合,然后对这样的词集进行下列预处理 . (1)停用词过滤.停用词指的是那些对文本标识没有太大作用的单词.根据Zip定律 ]:在一个文本集中,任一词的频 率乘以自身的序号约等于常数 .这个定律表明中等频率的词汇其表现能力最强.因此,去掉在所有文档中都有很高出现频 率的词,如 “的”“地”“得”等;去掉稀有词,稀有词在中文文档中出现的次数都很少,如 “分爨”等. (2)同义词归并.同义词现象指的是可以用多种不同的方式来描述同一个主题或者内容.同义词的存在使得文本聚类 具有相当高的时间复杂度,极大干扰了聚类学习算法的准确性 .因此,将同义词和近义词合并为相应的概念类 . 预处理后将文本内容数据转换为便于计算机处理的结构化数据的形式 .目前,在信息处理领域 ,向量空间模型是应用 较多且效果较好的表示方法之一 .最基本的思想就是用词袋法表示文本 ,即 (d)=(t,w 一;t,w∥-·;tm,W ),简记为 d = d(W ,W ,…,W ).其中:t为 条项,可以为单词 ,也可以为词组;W 一般被定义为t在文本d中的权值 . 2 特征选择方法 文本数据的半结构化甚至于无结构化的特点 ,使得用词袋法表示待测文档集时,特征向量会达到几万维甚至于几十万 维.即使经过预处理,还会有很多高维数的特征向量留下 .高维的特征对聚类未必全是至关重要的、有益的.高维的特性可 能会大大增加聚类的时间而仅产生与小得多的特征子集相关的聚类结果.因此,在进行文本聚类中,特征选择显得至关重 要.但文本聚类因为缺乏类信息而无法使用有监督的特征选择算法,只能使用无监督的特征选择算法,所以在聚类上的特 * 收稿 日期:2007—09—02 基金项 目:湖南省教育厅科学研究项目(0713036) 作者简介:龚 静(1972一),女,湖南岳阳人,湖南环境生物职业技术学院信息技术系副教授 ,硕士,主要从事自然语 言处理研究. 占 大学学报(自然科学版) 第 29卷 征选择研究并不多 .常用于文本聚类的特征选择方法有3种:文档频数 (DocumentFrequency,DF)、单词权 (TermStrength,TS) 和单词熵 (Entropy.BasedFeatureRanking,EN). 2.1文档频数 (DF) 文档频数是最为简单的一种特征选择方法,它指的是在整个数据集中有多少个文本包含这个单词.文档频数有一个基 本的假设,那就是认为对一

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档