- 2
- 0
- 约1.08万字
- 约 65页
- 2018-06-30 发布于福建
- 举报
第1章 数据挖综述
第1章 数据挖掘综述 1.1数据挖掘的研究历史和现状 1.2数据挖掘定义 1.3数据挖掘研究内容 1.4数据挖掘系统工作原理 1.1数据挖掘的研究历史和现状 数据挖掘演变的过程 电子数据处理的初期,人们试图通过某些方法来实现自动决策支持,机器学习成为人们关心的焦点。 神经网络技术形成和发展,人们将注意力转向知识工程,直接给计算机输入已被代码化的规则。 80年代人们在新的神经网络理论指导下,又回到机器学习方法上,并将其成果应用于处理大型商业数据库。 随着数据库技术的发展及数据库管理系统的广泛应用 ,数据挖掘概念从商业角度被开发出来。 数据进化的阶段 发现知识(KDD) 1989年举行的第十一届国际联合人工智能学术会议上首次出现知识(KDD)一词。 目前为止,由美国人工智能协会主办的KDD国际研讨会已经召开8次,研究重点逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。 并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。 与国外相比,国内对DMKD的研究稍晚,尚未形成整体力量。 1993年国家自然科学基金首次支持该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究 。 1.2数据挖掘定义 1.2.1 技术角度的定义 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 这个定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的; 发现的是用户感兴趣的知识; 发现的知识要可接受、可理解、可运用; 并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 其中何谓知识? 从广义上理解,数据、信息也是知识的表现形式,但是人们把概念、规则、模式、规律和约束等看作知识,原始数据可以是结构化的、半结构化的,甚至是分布在网络上的异构型数据。 发现知识的方法可以是数学的、非数学的、演绎的、归纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制以及数据自身的维护。 这里所说的知识发现,是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。 1.2.2商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 数据挖掘是一类深层次的数据分析方法。现在,由于各行业业务自动化的实现,商业领域由于纯机会的(Opportunistic)商业运作而产生大量的业务数据,经过深层分析,获得有利于商业运作、有竞争力的信息。 数据挖掘可以描述为:一种按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。 1.2.3 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析的本质区别是: 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征。 数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 1.2.4 数据挖掘和数据仓库 大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中(见图1-1)。 数据仓库 建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程。 1.2.5 数据挖掘和在线分析处理(OLAP) OLAP是决策支持领域的一部分。 OLAP分析是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论,本质是演绎推理的过程。 数据挖掘和OLAP具有一定的互补性。 1.2.6 数据挖掘、机器学习和统计 数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。 数据挖掘不是为了替代传统的统计分析技术,而是统计分析方法学的延伸和扩展。 一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,几乎不用人的关照自动就能完成许多有价值的功能。 1.2.7 软硬件发展对数据挖掘的影响 计算机性能价格比的巨大进步使数据挖掘这件事情成为可能的关键。 基于并行系统的数据库管理系统也给数据挖掘技术的应用带来了便利
原创力文档

文档评论(0)