聚类与关联规则挖掘进行结合研究.docVIP

下载本文档

45
0
约4.5千字
约 9页
2018-09-18 发布于福建
举报
版权申诉

聚类与关联规则挖掘进行结合研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类与关联规则挖掘进行结合研究

聚类与关联规则挖掘进行结合研究　　摘要：聚类及关联规则挖掘是数据挖掘领域中的两种重要方法。先使用聚类法将比较接近的数据分为同一簇，再分别对已经减少了数据量的每一簇作关联规则挖掘，这样，结合了两种方法的优点，改进了仅使用单一方法的缺点，能够获得更多的信息，有助于更加容易且有效地分析数据。　　关键词：聚类；关联规则；缺点；结合；数据挖掘　　中图分类号：TP311文献标识码：A 文章编号：1009-3044(2011)14-3418-02 　　Research of Mining Association Rules on Individual Cluster 　　QIN Fu-gao1, SUN Yue-juan2 　　(1.School of Computer Information Engineering，Changzhou 213002, China; 2. Teaching Affairs Office, Changzhou 213002, China) 　　Abstract: Clustering and association rules mining are two important methods in data mining. First,the data set is divided into several clusters by clustering algorithm. Then we find out some important rules from each cluster by association rules mining. In this way, combining these two approachs can improve the disadvantages of adopting clustering or association rules mining alone. Therefore, more information will be mined and it will help users to analyze data more easily and efficiently. 　　Key words: clustering; association rules; disadvantage; combination; data mining 　　数据挖掘(data mining)是指从大量数据中提取或挖掘出潜在的、明确的、非常有用的信息的过程。随着信息的发展，所能取得的数据越来越多，也越来越复杂。因此，现代的信息技术所要面临的挑战已经不再是如何管理数据，而是如何在资源（如计算机内存、执行时间等）有限的情况下从这些大量且复杂的数据中挖掘出隐藏的且真正有用的信息加以利用。　　现有的研究，大部分是针对个别的算法加以改进。在聚类算法方面，主要研究相似度的计算方式，或是对于不同类型数据的处理；在关联规则挖掘方面，主要是提出新的支持度与可信度的计算方式，以及通过新的角度解释数据的意义。在数据挖掘时，单独进行聚类分析或关联规则挖掘，缺点与优点并存，现通过各自经典的算法，提出将他们结合，用他们的优点弥补对方的缺点，以便更好地进行数据挖掘。　　1 聚类法及其缺点　　在分析数据库里的内容时，通常包含了大量的数据纪录，若要减少数据量，并且将这些数据分析透彻的话，最好的方法是先将数据分类。这样一来，便可以对每一个减少了数据量的类进行分析，而且每一个类内部所包含的数据，彼此之间也较为相似。然而，大多数情况下，事先无法对此数据给予类定义，因此衍生了聚类法。　　将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。[1]聚类又称为数据切割，主要目的是将数据分割为若干个类（或簇），并且经过分析各个类的结果，获得数据中所隐藏的、未知的、令人感兴趣的信息。在数据挖掘中，聚类属于非监督式学习，在分析过程中，它不需要依赖事先定义的类，这也是聚类与分类之间最主要的区别。　　1.1 经典的k-means聚类算法　　虽然有很多聚类算法被发展出来，但在分割式的聚类算法里，k-means是其中最为人熟知，且使用最久的一种方法，其优点是概念易懂、运算速度快。对于给定的n个数据对象，使用k-means是为了将其分成k个簇，每一簇都拥有自己的特性，因此可以进一步挖掘出有用的信息。　　首先，k-means中的k指的是使用者所设定的聚类数量，依据数据量以及数据类型的不同，所需设定的k值也不同，k值必须依照需求来决定，是很重要的一个参数。另外，每一个簇都会有一个中心，即