- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《数据仓库与数据挖掘》 主讲教师: 唐德玉 联系方式:scutdy@126.com 手机1 .图像分割 数据挖掘技术应用 DOUBLE WEIGHTED FCM ALGORITHM FOR COLOR IMAGE SEGMENTATION(ICMLC EI会议) 2. 原发性肝癌血清蛋白质谱图人工神经网络诊断模型 数据挖掘技术应用 实现方法 一、数据丰富与知识贫乏 数据、信息和知识 数据 是“客观事物的属性、数量、位置及相互关系等的抽象表示” 信息 是“数据所表示的语义” 知识 是“以各种不同方式把多个信息关联在一起的信息结构”或者说知识是“多个信息之间的关联”。-》 当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。 据估计,一个大型企业数据库中数据,只有百分之七得到很好应用。这样,相对于“数据过剩”和“信息爆炸”,人们又感到: “信息贫乏”(Information poor) “数据关在牢笼中”(data in jail), 奈斯伯特(John Naisbett)惊呼 “Wear drowning in information,but starving for knowledge”(人类正被数据淹没,却饥渴于知识)。 面临浩渺无际的数据,人们呼唤从数据汪洋中来一个去粗存精、去伪存真的技术,使之能从已有信息中发现模式或规律,使之能够智能地、自动地将这些原始数据转化处理为有用的信息和知识。 而计算机另一个领域---人工智能的发展,使得这种“发现”成为可能。于是,从数据库中发现知识(KDD)及其核心技术——数据采掘(DM)便应运而生了。 二、数据挖掘的出现 数据挖掘是应用驱动的结果 近年来,数据挖掘之所以引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。 银行信用卡的发放 保费的确定 商品进货量的确定 油井的加压注水措施 广告与销售之间的关联 商品的关联销售 客户群的分析 客户流失分析等等 诸如此类的问题,现有传统数据库技术是无能为力,尽管问题的答案可能就深深隐藏在已有的数据库中 结果,收集在大型数据库中的数据变成了 “数据坟墓”——难得再访问的数据档案。 这样,重要的决定常常不是基于数据库中信息丰富的数据,而是基于决策者的直觉,因为决策者缺乏从海量数据中提取有价值知识的工具 数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。 数据仓库的产生 数据仓库技术是随着人们对大型数据库系统研究的不断深入,在传统数据库技术基础之上发展而来的,其主要目的就是为决策提供支持,为OLAP、数据挖掘深层次的分析提供平台。 数据仓库是一个和实际应用密不可分的研究领域,与传统数据库相比,数据仓库不仅引入了许多新的概念,而且在体系结构、数据组织等方面,均有其自身的特点。 1.2 数据挖掘基本知识 一、数据挖掘的定义 简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。 从89年开始出现KDD(Knowledge Discovery in Databases )以来,人们对KDD在不同应用领域下过很多定义。随着对KDD研究不断深入,人们对KDD的理解越来越全面,对KDD的定义不断修改。 定义1:KDD就是要从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。 二、数据挖掘的步骤 KDD定义中的“非平凡性”主要强调其搜索有一定的自动性、智能性,而并非对数据集中的每一点都要遍历到。它是一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种螺旋上升过程。如下图: 在何种数据源上进行数据挖掘 数据挖掘所依赖的数据来源多种多样,可以是常用的关系数据库、事物数据库、文本数据库、多媒体数据库等,主要取决于用户的目的及所处的领域。 由以下步骤组成: 1、数据清理 消除重复的、不完全的、违反语义约束的数据 2、数据集成 多种数据源可以组合在一起 3、数据选择 从数据库中检索与分析任务相关的数据 4、数据变换 数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作 5、数据挖掘 使
文档评论(0)