聚类与关联规则挖掘算法及其应用研究.docVIP

下载本文档

13
0
约6.25千字
约 11页
2018-04-07 发布于北京
举报
版权申诉

聚类与关联规则挖掘算法及其应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类与关联规则挖掘算法及其应用研究　　摘要：该文介绍了数据挖掘中两种重要的算法：1）发现数据分布和隐含模式的聚类算法；2）应用最为广泛的挖掘方法之一关联规则挖掘算法，并就它们在应用型院校本科教学评估中的应用进行了研究。　　关键词：数据挖掘；聚类；关联规则；置信度；支持度　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2008)27-1881-04 　　Clustering and Association Rule Mining Algorithms and Their Applications 　　WANG Ai-xia 　　(Nanjing University of Aeronautics and Astronautics and College of Information Science Technology, Nanjing 210016, China) 　　Abstract: In this paper,two important algorithms of data mining are introduced: 1) the clustering algorithm of found data distribution and hidden patterns; 2) the association rule mining algorithms which is one of the most widely used data mining methods. The application of the two algorithms in the undergraduate teaching evaluation of application-oriented college is studied in this paper. 　　Key words: data mining; clustering; association rules; confidence; support 　　　　1 前言　　　　随着信息化的飞速发展，信息量超指数上升，现今资料流通量之巨大已到了令人咂舌地步，就实际限制而言，便遇到了诸如巨量的纪录，高维的资料增加的传统分析技术上的困难，搜集到的资料仅有5%至10%用来分析，越来越多的数据来不及分析就过时了，也有的数据因其数据量极大而难以分析数据间的关系，以致出现了“数据丰富，信息贫乏（data rich but information poor）”的局面。快速增长的海量数据收集存放在大型和大量数据库中，没有强有力的工具，理解它们已远远超出了人的能力。结果，收集在大型数据库中的数据变成了“数据坟墓”――难得再访问的数据档案。　　对信息社会中的任何组织和个人来说，其最大的资本就是将积累的“可用”数据转化为“有用”信息，能“利用”所掌握的信息“预测不可知的未来”。因此“凡事预则立”，这就需要一种方法，能够自动地发现和描述各数据间隐含的关联性与事态的发展趋势，自动地标记异常数据，为管理决策提供更强有力的支持，充分发挥历史数据的作用。数据挖掘技术迎合了人们的需求，为自动和智能地把海量的数据转化为有用的信息知识提供了有力的手段，给数据和信息之间的鸿沟架设了方便之桥。　　　　2 数据挖掘概述　　　　数据挖掘就是从海量的、不完全的、有噪声的、模糊的、随机的实际应用数据中挖掘出可能有潜在价值的信息的技术，具有如下特点：1）能发现反映系统局部特征和规律的模型；2）自动趋势预测，能发现“新”的知识；3）比较容易获得很多规则，并能及时更新。　　数据挖掘一开始就是面向应用，为决策服务的，综合了各个学科技术，有很多的功能，当前主要功能如下：　　1）分类：按照分析对象的属性、特征，建立不同的组类来描述事物；　　2）聚类：识别出分析对内在的规则，按照这些规则把对象分成若干类；　　3）关联规则和序列模式的发现：关联是某种事物发生时其他事物会发生的这样一种联系。而序列是一种纵向的联系；　　4）预测：把握分析对象发展的规律，对未来的趋势做出预见；　　5）偏差的检测：对分析对象的少数的、极端的特例的描述，揭示内在的原因。　　数据挖掘的各项功能不是独立存在的，在数据挖掘中互相联系，发挥作用。作为一门处理数据的新兴技术，数据挖掘有许多的新特征。首先，数据挖掘面对的是海量的数据。其次，数据可能是不完全的、有噪声的、随机的，有复杂的数据结构，维数大。最后，数据挖掘是许多学科的交叉，运用了统计学，计算机，数学等学科的技术。　　　　3 聚类描述及其算法　　　　3.1 聚类描述　　聚类是由聚类分析工具根据一定规则，将数据