网站大量收购独家精品文档,联系QQ:2885784924

一种新的演化文本流聚类算法.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种新的演化文本流聚类算法.pdf

计算机科学Zoo7voL34撇., 一种新的演化文本流聚类算法 ‘ 邓维维 彭 宏 (华南理工大学计算机学院 广州510641) 摘 要 数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但 是大部分都是针对低维的数值型数据,很少有高维丈本流的研究。本文在传统的数据流聚奥框架基础上,提出了一种 新的文本微聚类结构体,它更适合文本聚类,同时还将在线微聚类分为潜在徽聚类和异常微聚类,提高了时孤立点的 适应能力。实验表明该算法相对于其他丈本流聚类算法更有效。 关键词 聚类,数据流,文本流 An Algori比mforClusteringF,olving TextL.加St此别mwithoutlie招 DENGWe卜WeiPENGHollg (峨)mDutersj即ce压 此rln抚斌,与uth以 n‘口U面,e而t萝of 为〔ina,G胜.习n匹卜。u510641) A份 tAs月b,h试clust污 ,户atastron cl只5叩‘鸭蟀.货的me熟hot,s卯,ind小nU哪 柳钾Ughrte卜reare Inallystrealn 川us便nng ajgo叮t抽1‘,theyare 夕nlys梦lta钾e士0了low 只分 ,onal份 rlc严Ta干yPe,叩ole丫oTtllelllla理 de凡1口nel‘torhlghdnnenslonal论双 肚res们15.A l犯、relonllnenucro Clus优rstruc加 re 幻ase。。nmetr日。ltlollalstre扫nlclus- p四因5翻曰】dltiss山tableforclusteri咫 text al引」br【 advant叹ewl犯noutlie邝appearr象黑豁煞裂玺怡幕军二{裂篇1茹晃军默掇 署 met』Icdsbn眼advanceln阶ts p血 essi叹textstr妙 w卜m《conlfare‘toother凡 K”,份山 Clust明吃,Datastr吧习幻1,Textstream 孤立点的情形和文本之间相似度度量的特点。本文中的方法 1 引言 充分考虑了流文本中存在孤立点的问题,专门设计了异常微聚 近几年.数据流开始成为计算机某些领域的一个研究热 类,用来处理文木流中孤立点过多时聚类质量下降的问题。设 点 比如数据库系统,数据挖掘和分布式系统。数据流可以简 计了新的微聚类结构,在流环境下维护了文本相似计算中的 单看成有序的数据点序列,随着时间的流逝,不断有新的数据 mF(hl祀仪 次〔L口兀ntFrl生卜吧址y),使得文本聚类效果更好。实 涌来。网络上传递的数据包、Web点击流、电信的通话记录、 验表明,该新方法在聚类效果上优于文仁月中提出的方法,特别 股票数据和感应网络采集的数据都可以看作是数据流。数据 是在文本流中出现孤立点时。 流处理方法具有一些传统数据处理方法没有的特点: 2离线和在线问题 一遍扫描:在满足处理要求的情况下,要尽可能少地扫描 数据集,最好是一遍扫描; 由于数据流中的数据不能被再次访问,数据流聚类算法 有限的内存及存贮空间:由于数据流具有无限连续性,不 一般要在有限的存储空间里维护已经流逝的数据的概要信息 可能存贮如此海量的数据,因而要对数据流进行概化,构造概 (synl〕psis)或者说浓缩信息(田11dens 曰 1们forma tion)。比如 要结构(syncpsis)或有选择地舍弃; 说,文 幻〔实现了一个流环境下的K~n比ans 算法,它

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档