基于聚类方法计算机网格技术探析.docVIP

下载本文档

1
0
约2.93千字
约 7页
2018-06-23 发布于福建
举报
版权申诉

基于聚类方法计算机网格技术探析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于聚类方法计算机网格技术探析

基于聚类方法计算机网格技术探析　　【摘要】网格技术和应用将成为具有高性能处理、海量数据存储和大量仪器设备终端等特征的信息处理基础设施。通过它可以汇聚Internet中分散异构、动态变化的计算和信息资源，将其中不同组织和机构的资源数据空间化。网格技术的数据分析方法将多维空间数据划分为由（超）矩形网格单元组成的网格，然后在网格单元上进行聚类，以提取挖掘隐含的、未知但有应用价值的信息。本文以聚类算法为代表，对现有基于网格技术的进行了概述探析。　　【关键词】数据挖掘；网格；聚类　　0.引言　　随着现代商业计算越来越复杂，技术上迫切需要低廉而数据处理能力超强的计算模式以进行从大型数据库或数据仓库中提取隐含的、未知的有应用价值的信息或模式，随之数据挖掘的概念应运而生。数据挖掘是数据库研究中的一个很有应用价值的领域，融合了数据库、机器学习、??计学等多个领域的理论和技术。　　数据挖掘中，聚类分析方法是广为研究的课题之一，是从数据中寻找数据间的相似性，并依此对数据进行分类，从而发现数据中隐含的有用信息或知识。　　网格方法是空间数据处理中常用的将空间数据离散化的方法。基于网格，聚类算法由于易于增量实现和进行高维数据处理而被广泛应用于网格技术中。本文对聚类算法、网格方法进行了概述分析。　　1.网格的定义与划分　　网格的基本概念，设N1，　N2，…，Nr是数据集D={D1，D2，…，Dn}中数据对象的r　个属性的有界定义域，那W=N1×N2×…×Nr　就是一个r　维空间，　将N1，N2，…，Nr看成是W的维（　属性、字段），则对于一个包含n　个数据点的r　维空间中的数据集D={D1，D2，…，Dn}，其中Di={Di1，Di2，…，Dir}（i=1，　2，…，n），Di　的第j　个分量Dij∈Nj。将W的每一维M等分，即把W分割成个网格单元。　　聚类算法第一步是划分网格结构，按搜索子空间的策略不同，　主要有两种算法，一是由底向上网格划分方法的算法，另外一个是自顶向下网格划分方法的算法。　　1.1由底向上的划分方法　　由底向上的网格划分方法按照用户输入的划分参数（即每维段数ki，1≤i≤d），将数据空间均匀划分为相等大小的网格单元，假设落入同一网格单元内的所有数据点都属于同一个簇，每个网格单元保存落入其内数据的统计信息，比如数据点个数，数据点之和。包含数据点数据较多的网格单元被称为高密度网格单元。　　采用由底向上的网格划分方法的优点在于，它能通过对数据的一遍扫描，将数据压缩到一个网格数据结构内，并基于这个网格数据结构，发现任意形状的簇。其缺点，如果网格单元的粒度较小（即体积较小），那么得到的聚簇的精度较高，但是算法的计算复杂度较大。此外，由底向上的网格方法存在不适合处理高维数据的问题。在高维空间，数据的分布是非常稀疏的，网格方法失去其压缩作用，而且属于同一个簇的高密度网格单元也可能不相连，这使聚类算法不能发现合理数目的簇。　　1.2自顶向下的划分方法　　自顶向下的网格划分方法采取分治的策略，对数据空间进行递归划分，使问题的规模不断减小。首先将原数据空间划分为几个较大的区域。对于每个得到的区域，划分过程反复执行，直到每个区域包含属于同一个簇的数据点，那么这些区域就是最终的网格单元。该算法直接将高密度网格单元识别为一个簇，或是将相连的高密度网格单元识别为簇。　　自顶向下划分方法的主要优点在于不需要用户指定划分参数，而是根据数据的分布对空间进行划分，因此这种划分更为合理。数据空间维度对自顶向下网格方法的影响较小，可以快速将大型高维数据集中的簇分隔开。这一类方法的计算复杂度与数据集大小和维度都呈线性关系适合于处理高维数据。其缺点，由于划分是基于数据分布的，而通常认为噪音是在整个空间均匀分布的，所以自顶向下划分方法对噪音不敏感。但是，由于这种方法得到的网格单元的体积远大于由底向上网格方法中的网格单元体积，因此该方法产生的簇的描述精度比由底向上的网格方法得到的簇的描述精度要低。而且在自顶向下的划分过程中，同一个簇可能被划分到不同的区域中，最终得到的同一区域也可能包含不同的簇，这样就进一步降低了算法的正确度。这类划分方法的另一个缺点是它在划分过程中，需要对数据集进行多次扫描。　　而由底向上划分方法在于只需对数据集进行一次线性扫描以及较高的簇的描述精度。因此，两类方法适用于不同的问题。前者适于处理高维数据集，后者能有效处理存取代价较大的超大型数据集与动态数据。　　2.网格聚类过程　　聚类算法的基本过程是，首先将数据空间W划分为网格单元，将对象指派到合适的单元，并计算每个单元的密度。以用户输入的密度阙值，删除低于密度阙值的稀疏网格单元，把邻近的高于密度阙值的稠密网格单元集中起来形成簇。　　相