基干K―means算法文本分类技术探讨.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基干K―means算法文本分类技术探讨

基于K―means算法的文本分类技术研究   摘 要 文本分类技术是网络信息挖掘中内容挖掘的重要手段之一,通过文本的分类技术可以将网络中纷繁复杂的信息分门别类的组织在一起,从更深的层次来寻找文档之间的联系本文,阐述了基于K-means算法的文本分类的关键技术,从网页的解析、文本的表示、降维技术到分类算法进行详细的论述,并对两个K-means算法做了改进 关键词 文本分类 降维技术 文本表示 分类算法 中图分类号:TP393 文献标识码:A 文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程,将大量的文本归到一个或多个类别中。从数学角度来看,文本分类是一个映射的过程,将未标明类别的文本映射到己有的类别中来,数学表示如下:f:A-B 其中A为待分类的文本集合,B为分类体系下的类别集合 文本分类技术是网络信息挖掘中内容挖掘的重要手段之一,通过文本的分类技术可以将网络中纷繁复杂的信息分门别类的组织在一起,从更深的层次来寻找文档之间的联系,不只停留在字面的匹配上。文本分类技术应用于信息检索中有利于提高检索的正确率和准确率 1网页的解析 按照W3C组织所制定的标准,每一个HTML页的结构都可以对应地描述成DOM树的形式。DOM定义了HTML文档的逻辑结构,提供了一种对网页中的数据及内容进行管理和操作的途径。DOM将整个文档的内容分别抽象为不同的对象,用结点的形式予以表示,如标签结点、文档类型结点、文本结点、注释结点、属性结点等。再用类似于父子的关系将各结点按照不同层次有顺序地组织起来,形成树型结构 2文本表示 向量空间模型(Vector Space Model,简记为VSM)是一种较著名的用于文档表示的统计模型,该模型以特征项做为文档表示的基本单位,特征项可以由字词或短语组成。每一个文档可以看成是由特征项组成的n维特征向量空间的一个向量:D=(T1,W1;T2,W2;T3,W3……;Tn,wn),其中Wi为第i个向量Ti在文档中的权重,一般选词做特征项比选字做为特征项要好一些。一般使用TF-IDF公式计算特征项权重,其中TF(Term Frequency)表示词频,IDF(Inverse Document Frequency)表示逆文档频率,反映文档集合中出现该特征项的文档数目的频率,TF-IDF权重公式如公式(1)所示: 3降维技术 3.1信息增益 信息增益在机器学习中经常被用做特征词评判的标准,它是一个基于熵的评估方法,定义为某特征项在文档中出现前后的信息熵之差。根据训练数据计算出各特征词的信息增益。删除信息增益很小的词,其余的按信息增益从大到小排列。如果以信息增益最大者为要根结点,建立一个决策树就可以进行决策树的分类挖掘。如公式(2)所示 其中i=1,2…M。p(ci)表示类文本在语料中出现的概率,p(ci|w)表示文本包含特征项W时属于ci类的条件概率,p(w)表示语料中不包含特征项W的文本的概率,p(ci|w)表示文本不包含特征项W时属于ci类的条件概率,M为类别数 3.2互信息(MI) 应用在相关词统计建模中,在统计学中用于表示两个变量间的关系,其计算如下公式(3)所示: 显然当特征项W独立于ci时它同该类的相关度为0 ,p(w)越小而同时p(w|ci)越大时特征项W提供类别ci的信息量越大,则这个特征项越能代表这一类,反之,p(w)越大的同时p(w|ci)越小,则可能得到负的互信息值,这种情况下,该特征项对分类的意义同样很大 3.3交叉熵(expected cross entropy) 与信息增益类似也是一种基于概率的方法,但只计算出现在文本中的特征项,其计算如公式(4)所示: 4分类算法 K-means算法是应用最广泛的聚类算法之一,是一种已知聚类类别的聚类算法。指定类别数k,对样本集合进行聚类,聚类的结果由k个聚类中心来表达。相似度的计算根据一个簇中样本的平均值(被看作簇的中心)来进行 首先,随机选择k个对象,每个对象初始的代表了一个簇的平均值或中心。对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下: 这里的E是数据库中所有对象的平方误差的总和,p是空间中的点,表示给定的数据对象,mi是簇Ci的平均值(p和mi都是多维的)。这个准则试图使生成的结果簇尽可能的紧凑和独立。下面是K-means过程的概述 输入:聚类的数目k和包含n个对象的数据库 输出:k个聚类簇,使平方误差准则最小 (1)任意选择k个对象作为初始的聚类簇中心; (2)重复; (3)根据聚类簇中对象的平均

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档