数据挖掘概念及国内外现状.docVIP

下载本文档

85
0
约4.12千字
约 9页
2019-07-18 发布于北京
举报
版权申诉

数据挖掘概念及国内外现状.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE 1 数据挖掘概念及国内外现状　　摘要：随着信息技术的高速发展，人们积累的数据量急剧增长，如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。其主要任务是关联分析、分类、预测时序模式和偏差分析等。是知识发现（knowledgediscoveryindatabase）的关键步骤。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的，然后发展到可对数据库进行查询和访问，进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段，它不仅能对过去的数据进行查询和遍历，并且能够找出过去数据之间的潜在联系，从而促进信息的传递。　　关键词：DataMining；数据仓库；OLAP；K均值算法；K中心点算法　　中图分类号：TP311文献标识码：A文章编号：1007-9599（2012）20-0000-03 　　1基本概念　　对于技术人员来说，DataMining[1]指的是由许多看似没有规则并且混乱不完整的现实数据中，提炼出其深层次并且不易为人所知的，却具有潜在价值的数据信息和资料的过程。对于商业人员而言，DataMining则可以帮助他们合理整理商业数据的好方法，因为它可以对这些Database里将大部分的业务数据执行提炼、变换、剖析以及一些模型化操作，之后得到可以帮助商业决策的信息，比如牛奶和婴儿尿布的关联性信息。总的来说，DataMining的工作就是对数据进行关联性分析，提炼出规则。它有以下几个重要的元素[2]：　　1.1知识　　人类通过不断的实战而得到的宝贵经验；被检测的相关数据状态的变化规则；从数据中提取得到的不具体事物。知识的形式可能为数据模板、关联规则、数据变动、数据异常或者其他具实际用途的结构。　　1.2模式　　针对集合（Collection）里的所有元素，能够使用语言（Language）来展示这些元素本质上的特征，然后整理得到一个表达式（Expression），里所说的元素是中的某个子集。仅仅在比里所有数据的展示方法更加简单的时候，会成为模式。　　1.3概念/类别描述　　指对数据集构建一个简洁的总体性描述并/或描述它与某一对照数据集的差别。　　1.4关联分析　　从一个项目集中发现关联规则（AssociationRules），该Rules表现了被挖掘的数据综合起来会得到的属性-值条件这样的元组。　　1.5分类与估值　　分类指通过分析一个类别已知的Database的特点来建立一组模型M，M能够被用来预测类别未知的以后的数据。该分类模型可以表现为多种形式：分类规则（），决策树或者数学公式，甚至是神经网络。估值与分类类似，只不过它要预测的不是类别，而是一个连续的数值。　　1.6时间序列分析　　也就是预测（），是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性，包括搜索相似序列或者子序列，挖掘序列模式、周期性、趋势和偏差。　　2OW与OLAP 　　数据仓库（OW或OWH）[3]指的是在公司管理和决策里面向主题的（Subject-oriented）、集成的（Integrated）、与时间有关的（Time-related）、不能被改动的数据集合，所谓面向应用，指的是系统实现过程中主要围绕着一些应用或功能。而面向主题则考虑一个个的问题域，对问题域涉及到的数据和分析数据所采用的功能给予同样的重视；OW里的数据来源于很多不同的Database，由于历史的原因，每个Database的组织结构通常是不同的，当这些不同结构的数据还没输入到OW的时候，必须经历一个集成过程；OW以维的形式对数据进行组织，时间维是数据仓库中很重要的一个维度，并且数据仓库中的数据时间跨度大，从几年甚至到几十年，称为历史数据；面向应用的事务Database应该不断的执行数据插入（Insert）、更新（Update）操作，而对于OW里的数据只是做初始的导入和记录查询操作。OW的组成如图1-1所示。　　图1-1OW组成图　　OW的管理器包含三个[4]：（1）加载管理器，即LoadManager，执行提炼与Load程序；（2）仓库管理器，即WarehouseManager，执行数据的Arrange与Convert程序、Backup与Kept程序；（3）查询管理器，即QueryManager，执行Query和Manage程序。　　，即，是OW的分析展示工具，它创建的基础是数据的多维视图（MultidimensionalViews，即MV），其特点包含以下两个：一是，表现在其对User的请求信息可以快速的Response以及交互式（interactive）操作；二是，是的核心。与的区别如表1-1所示