- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种新的演化文本流聚类算法.pdf
计算机科学Zoo7voL34撇.,
一种新的演化文本流聚类算法 ‘
邓维维 彭 宏
(华南理工大学计算机学院 广州510641)
摘 要 数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但
是大部分都是针对低维的数值型数据,很少有高维丈本流的研究。本文在传统的数据流聚奥框架基础上,提出了一种
新的文本微聚类结构体,它更适合文本聚类,同时还将在线微聚类分为潜在徽聚类和异常微聚类,提高了时孤立点的
适应能力。实验表明该算法相对于其他丈本流聚类算法更有效。
关键词 聚类,数据流,文本流
An Algori比mforClusteringF,olving TextL.加St此别mwithoutlie招
DENGWe卜WeiPENGHollg
(峨)mDutersj即ce压 此rln抚斌,与uth以 n‘口U面,e而t萝of 为〔ina,G胜.习n匹卜。u510641)
A份 tAs月b,h试clust污 ,户atastron cl只5叩‘鸭蟀.货的me熟hot,s卯,ind小nU哪 柳钾Ughrte卜reare
Inallystrealn 川us便nng ajgo叮t抽1‘,theyare 夕nlys梦lta钾e士0了low 只分 ,onal份 rlc严Ta干yPe,叩ole丫oTtllelllla理
de凡1口nel‘torhlghdnnenslonal论双 肚res们15.A l犯、relonllnenucro Clus优rstruc加 re 幻ase。。nmetr日。ltlollalstre扫nlclus-
p四因5翻曰】dltiss山tableforclusteri咫 text
al引」br【 advant叹ewl犯noutlie邝appearr象黑豁煞裂玺怡幕军二{裂篇1茹晃军默掇
署
met』Icdsbn眼advanceln阶ts p血 essi叹textstr妙 w卜m《conlfare‘toother凡
K”,份山 Clust明吃,Datastr吧习幻1,Textstream
孤立点的情形和文本之间相似度度量的特点。本文中的方法
1 引言 充分考虑了流文本中存在孤立点的问题,专门设计了异常微聚
近几年.数据流开始成为计算机某些领域的一个研究热 类,用来处理文木流中孤立点过多时聚类质量下降的问题。设
点 比如数据库系统,数据挖掘和分布式系统。数据流可以简 计了新的微聚类结构,在流环境下维护了文本相似计算中的
单看成有序的数据点序列,随着时间的流逝,不断有新的数据 mF(hl祀仪 次〔L口兀ntFrl生卜吧址y),使得文本聚类效果更好。实
涌来。网络上传递的数据包、Web点击流、电信的通话记录、 验表明,该新方法在聚类效果上优于文仁月中提出的方法,特别
股票数据和感应网络采集的数据都可以看作是数据流。数据 是在文本流中出现孤立点时。
流处理方法具有一些传统数据处理方法没有的特点:
2离线和在线问题
一遍扫描:在满足处理要求的情况下,要尽可能少地扫描
数据集,最好是一遍扫描; 由于数据流中的数据不能被再次访问,数据流聚类算法
有限的内存及存贮空间:由于数据流具有无限连续性,不 一般要在有限的存储空间里维护已经流逝的数据的概要信息
可能存贮如此海量的数据,因而要对数据流进行概化,构造概 (synl〕psis)或者说浓缩信息(田11dens 曰 1们forma tion)。比如
要结构(syncpsis)或有选择地舍弃; 说,文 幻〔实现了一个流环境下的K~n比ans 算法,它
您可能关注的文档
- _实践本体论_的困难和我们的选择_吴仁平.pdf
- _时空压缩_与客源市场空间结构演变_以江苏国际旅游客源市场为例.pdf
- _计算机应用基础_网络教学平台的开发.pdf
- _负面新闻_及相关概念辨析.pdf
- _问题_研究综述.pdf
- γ-亚麻酸的研究进展.pdf
- ПК恩格迈尔的技术哲学.pdf
- “X”门构式的语义信息及认知形成机制.pdf
- “为留守儿童设计”公益项目常见问题集锦.pdf
- “产学研”协同创新的内涵要求与政策构想.pdf
- 2-红河州建筑施工安全生产标准化工地复核评分表(2022年修改版).docx
- 6.锡通项目2018年下半年工作会汇报材料(2018.7.9).docx
- 2018道路工程知识点汇总(新版).docx
- 附件3:月度生产例会安全汇报资料-站台门项目部.docx
- 附件2:广东建工集团2018年度科技成果汇总表.DOC
- 马武停车区、三汇停车区停车位管理系统,0#台账缺量.doc
- 攀成钢委办发〔2015〕19号(党风廉政建设责任考核与追究办法).doc
- 1-红河州建筑工程质量管理标准化复核评分表(2022年修改版).docx
- 中交第三公路工程局第四工程分公司项目经济合同结算管理办法(修订).doc
- 厂站安全操作规程汇编.doc
文档评论(0)