大规模数据集聚类中数据分区及应用研究.docVIP

下载本文档

2
0
约3.37千字
约 8页
2018-09-01 发布于福建
举报
版权申诉

大规模数据集聚类中数据分区及应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大规模数据集聚类中数据分区及应用研究

大规模数据集聚类中数据分区及应用研究　　摘要：针对大型数据库提出了许多聚类方法，但是这些算法往往计算量较大、对主存的要求较高；而且当数据分布不均匀时，算法的聚类质量会受影响。因此为了提高聚类算法的效率和准确性，采用了数据分区技术首先对数据进行预处理，分区后的数据具有更少的数据量和更均匀的数据分布。?? 　　关键词：数据挖掘；聚类；数据分区；并行聚类?? 　　中图法分类号：TP391.4文献标识码：A 　　文章编号：1001―3695(2007)02―0203―03 　　近十几年来，人们利用信息技术生产和搜集数据的能力大幅度提高，千万个数据库被用于商业管理、政府办公、科学研究和工程开发等。要想使数据真正成为一个公司的资源，只有充分利用它为公司自身的业务决策和战略发展服务才行，否则大量的数据可能成为包袱，甚至成为垃圾。因此，面对人们被数据淹没却饥饿于知识的挑战，数据挖掘和知识发现技术应运而生，并得以蓬勃发展，越来越显示出其强大的生命力。聚类是数据挖掘中一种重要的挖掘任务和挖掘方法，它从数据库中寻找数据间的相似性，并依此对数据进行分类，使不同类中的数据尽可能相异，而同一类中的数据尽可能相似，即物以类聚，从而优化大规模数据库的查询并发现数据中隐含的有用信息或知识。聚类分析问题可描述为：给定m维空间R??m中的n个向量，把每个向量归属到S聚类中的某一个，使得每个向量与其聚类中心的距离最小。聚类分析问题的实质是一个全局最优问题。在这里，m可认为是样本参与聚类的属性个数，n是样本的个数，S是由用户预先设定的分类数目。　　数据聚类在很多领域中有着广泛的应用，如模式识别、图像处理、数据压缩、空间数据分析、市场研究、WWW（WWW上的文本分类；对Web的日志数据聚类后发现相似的访问模式）等。迄今为止，人们提出了许多聚类算法，这些算法都试图从不同的途径实现对数据集进行高效、可靠的聚类。例如分割的方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。但是由于在对大型数据库进行聚类时，很多算法都需要计算两点之间的距离，如系统聚类法、动态聚类法[1]，因此处理大样本时系统开销较大；另一方面，有些算法参数的选择对初始数据分布比较敏感，数据的分布可能会影响聚类质量，如DBSCAN算法[2，3]。所以很有必要对数据作预处理，预处理一方面使数据能够有规则地缩减；另一方面使数据分布尽可能均匀，本文采用了数据分区作为数据的预处理方法。使用分区技术后，只需对每个数据分布较均匀的区域进行局部聚类而不是对整个数据进行一次聚类，以此来减少聚类对象的规模，降低内存负担。此外，还可以把各个区域分配到不同的处理机上进行并行聚类，最后进行类的合并，以此来提高聚类效率。　　　　1 数据分区?? 　　　　数据分区是基于数据统计分布特性来对数据进行分区的。根据数据在多维上的分布特性，把数据空间划分成一个个小区域，使每个区域的数据分布尽可能均匀。然后对每个分区采用聚类算法，最后把各个局部聚类合并。分区过程使用了五种内部聚集函数：count( ),sum( ),avg( ),max( ),min( )。这些函数在数据立方体中也可以进行有效的计算。在数据的分区中，我们就可以利用这些函数来进行数据分布特性的统计。为了更清楚地描述分区过程，首先给出了步长密度的概念：它指在一个度量长度内的点数除以整个样本数据中的点数。　　在分区中我们使用了直方图来确定数据分布的密度情况。直方图由一组矩形组成，这些矩形反映了落在给定区间内的点数占总的样本数据的多少。在画直方图之前，首先要确定分组数和数据样本点中的最大值和最小值，最大值和最小值可以使用内部聚集函数求出，而组数的值不宜过大或过小，如果组数取得过大则有的区间内没有样本观测值；过小则无法看出数据点的分布情况。组数和数据点之间一般应该满足如下关系：　　对于数据分布图，我们可以穿过每个矩形上边的中点顺次连接成一条曲线，从这条曲线可以看出数据点的密度分布情况。为了避免把一个类分裂成多个类，我们在两个相邻波峰之间的波谷位置选择划分点，即数据分布最稀疏的位置来确定划分点。在划分中，我们给定一个阈值λ，用来决定是否需要在相邻两个波峰之间确定一个划分点，用向量（L1，S0，L2）来存储相邻的两个最大值点L1（波峰）和L2（波峰）以及相邻两个波峰之间的波谷S0，当| L1- L2|λ时，就在S0所对应的坐标轴上的点处进行划分,所有这些坐标轴上的点构成集合S，因此S中存储了所有的划分点。从图1中的曲线可以看出X1，X2为相邻的两个波峰值，而且这两个波峰值相差较大，因此可以在波谷位置确定划分点为xp 。分别对X，Y轴作这个划分步骤，确定划分点。从图中我们可以看出并不是所有的情况都需要进行数据划分，当发现数据的分布密度相差不大