- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于约束的数据流聚类研究
史金成1,2胡学钢1
1合肥l:业人学计算机与信息学院.安徽台肥230009
2铜陵学院计算机系,安徽铜羧244000
捕要:上世纪束,为适应网络监控、入侵检测、情报分析.商业交易管理和分析等应用的要求。
数据流技术应运而生.数据流聚类是数据漶挖掘最常用碑方渣之一,但是常见的聚类算法是羌监督的。
约束条件的聚类算法cON.SHStream.
关犍罔:数据滤数据流挖掘聚类约束
1前 言
在机器学习中,有两种主要的学习方法;有监督的学习录l无监督的}九纳¨l。有醢督的学习方法幂l无腋
督的学习方法的目标不同,有监督的学习方法的目标烂建立问题域的预测模矾.无监督的学习方法的目标
是逶过数据分辑班发现有趣豹模式或结掏。蒙类方法是一种无簸罄豹学习方法。需要聚类的数据对象没霸
标记。需要由聚类算法自己确定。由丁对数据对象不其各任何背景知识.聚类算法采用相同的原则对这魑
数据进行分析.聚类结果是否有效依赖于数据集对市先所制定的原则(假设)的符台程度。然而,在有蟪
瘟瑁中,聚类算法豹这种遴雕瓣原崩过于‘‘讴便”,有鞋会产生锻误的续果。困此,熬下约束豹聚类分辑出
现了。所谓带约束条件的聚类是指将特定的领域知识以“约束”的形式表达,井嵌入判聚类过程中的方法。
冈为利用了领域知识,使得聚类算法获得更多的启发式信息,从而减少了其搜索过张中的“盲目性”.提离
CON-SHStream.它能有效地解决基丁约束的高维数据流空间聚类问题。
2约束的种类
根据约束的性质。基丁约求的聚类『2州可咀采刚再种不同的方法。约求条仆可以分为以|卜.儿种:
(1)对个体对象构约柬
指对聚类的对象描逭约束条件。例如.在房地产的惠用中,可能只希望对那些价值在五十)了元以F的
廉价往塄进行空闽聚类。这种约柬条髑:限制了聚类的对象集合。可以通过预处理(例如SQL查询进行选择)
来处理这种约束条作,在预处理之后,有约求盼聚类阀题就变成了无约采豹聚类问题。
(2)对聚类参数选择的约束
指对象类过程中某个聚类参数致定一个期望的范嗣。对丁给定的聚类算法,聚类参数通常都是缀明确
缀人豹影响,但是它劐通常只对举了算法本王}进行限制。
(3l对相似度或距离函数的约柬
指对聚类对象某个特定的属性指定不同的相似度或距离龋数,或者对某个特定的对象指定不同的距离
度最。例如,垒对教师进行聚类畦,可以聪学历、学位、职季棼、年龄和技能水平经熠不瘫的加较方察。尽
管这样微有可能会改变聚类结果,但是它本质上可能不会政变聚类过榭。
(4)对各个簇的-陛质的约束
指对聚类羼的结栗簇惠该晨有的’挂矮迸纾指定。这种约求在实际鹿翔中经露出王莞。刳鲡。包裹投递公
司在一个城市中确定k个服务站的{=i):置时,将川户划分成两豢:特殊释户(需要频繁、定期的服务)和普
个翳遂客户。那么,在设计蒙类筹法时。裁痣该考患上述约束条件。
3SHStream聚类算法
界口1确定),然后在每个数据分段上进行子窜间聚类,运过迭代逐步得到满足聚类精度要求的聚类结果,同时针
对数据流的动态性,算法对聚类结采进行调鹈郭维护。该箨法可以有效圭|鱼处理商维数据流和对任意形状分布
数据的聚类问题。
设在数据流分段Ni上缳剑i维子空间密集单元集“,霸I临界密集单元集撕。对密集单元集U,首先通≤
维候选密黛单元集Ci+l进行选择度计莽,获得密集零lI缝赛密集婀格单元。这样逐步迭代+直至没有更燕维的霍
集单元产艇。具体算法描述如。F:
输入:k维数据流DS:密度蒯值t;各维分割间数昏置信度6;误差囡子e。输出:“.“。
步骤: ·
一 一 1—— 一
“=空榘;U=空集;凑入流数据分段NI,INIp·:;In(1/5);Ul=斑集:川=空集;
2£’ .
for(p=l;p!象:p++)do{for白=l;q-%q+
文档评论(0)