一种新基于网格压缩聚类算法SGRIDS研究.docVIP

下载本文档

1
0
约6.34千字
约 12页
2018-08-13 发布于福建
举报
版权申诉

一种新基于网格压缩聚类算法SGRIDS研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种新基于网格压缩聚类算法SGRIDS研究

一种新的基于网格压缩的聚类算法SGRIDS研究　　摘要:引入了一种新的基于网格的数据压缩方法,并应用该方法对处理大型空间数据集的聚类算法SGRIDS进行研究。该方法考虑输入参数对聚类算法质量有较大影响,对密度阈值的确定进行了改进,从而减小输入参数的影响。实验证明,该方法能够获得较好的聚类效果。　　关键词:聚类分析; 聚类算法; 基于网格的数据压缩; 算法SGRIDS 　　中图分类号:TP311文献标志码:A 　　文章编号:1001-3695(2009)09-3274-02 　　doi:10.3969/j.issn.1001-3695.2009.09.020 　　　　Research of new clustering algorithm SGRIDSbased on grid data compression 　　ZHAO Hui, LIU Xi-yu 　　(College of Management Economic, Shandong Normal University, Jinan 250014, China) 　　Abstract:By introducing a new grid-based data compression framework, conducted the study on the clustering algorithm SGRIDS which dealed with a large spatial databases. Considering that the input parameter has a great impact on the quality of clustering algorithms, improved the settlement of the value for density threshold, decreased the impact of input parameter, thus attaining a better clustering effect. 　　Key words:cluster analysis; clustering algorithms; grid-based data compression; algorithm SGRIDS 　　　　随着计算机硬件和软件技术的飞速发展,尤其是数据库技术的普及,人们面临着日益扩张的数据海洋,原来的数据分析工具已无法有效地为决策者提供决策支持所需要的相关知识,从而形成一种独特的现象“丰富的数据、贫乏的知识”。数据挖掘[1]又称为数据库中知识发现(knowledge discovery from database,KDD),它是一个从大量资料中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。其目的在于大量的资料中发现人们感兴趣的知识。　　常用的数据挖掘技术包括关联分析、异类分析、分类与预测、聚类分析以及演化分析等。聚类分析作为一种常用的数据挖掘方法得到了广泛的应用。　　　　1 聚类演算法分析　　　　1.1 常见聚类算法　　聚类[2]分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归为不同的类。目前,聚类分析已经被广泛地应用到许多领域中,包括模式识别、数据分析、图像处理以及市场研究等[3]。在商务上,聚类能够帮助市场分析人员从客户基本库中发现不同的客户群;在生物学上,聚类用于推到植物和动物的分类,对基因进行分类;聚类也能对Web上的文?n进行分类等。　　大体上,聚类算法[4]划分为如下几类: 　　a)划分方法。给定一个包含??n??个对象或数据行,划分方法将数据集划分为??k??个子集(划分)。其中每个子集均代表一个聚类(??k≤n??)。代表算法为K-means算法、K-medoids算法等。　　b)层次方法。该方法就是通过分解所给定的数据对象集来创建一个层次。它存在的缺陷就是进行(组)分解或合并之后无法回溯。将循环再定位与层次方法结合起来使用常常是有效的,如BIRCH和CURE就是基于这种组合方法设计的。　　c)基于密度的方法。只要邻近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。　　d)基于网格的方法。该方法是将对象空间划分为有限数目的单元以形成网格结构。在大部分基于网格方法的聚类算法中,所有的聚类操作都在网格数据结构上进行,网格中的数据压缩质量就决定了算法的聚类质量。本文在学习新的基于网格的数据压缩方法前提下,研究了处理大型空间数据集的聚类算法。　　e)基于模型的方法。该方法就是为每个聚类假设一个模型,然后再去发现符合相应模型的数据对象。它根据标准统计方法并考虑到噪声或异常数