数据挖掘课件 吉大DATA MINING(CH1).ppt

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘课件 吉大DATA MINING(CH1)

第1章 绪论 《数据挖掘与知识发现》(第2版) 吉林大学计算机科学与技术学院 李雄飞 绪 论 本章综合讨论数据挖掘的一般知识,简要介绍如下几个方面的内容: 数据挖掘的基本概念 KDD与数据挖掘 数据挖掘的对象与环境 数据挖掘方法与相关领域 数据挖掘系统与应用 引言 数据存储量急剧上升 NASA轨道卫星上的EOS每小时向地面发回50GB的图像数据 美国零售商系统Wal-Mart每天产生2亿交易数据 人类基因组项目已经搜集数以GB计的基因编码数据 存储技术的发展 大容量、高速度、低价格的存储设备相继问世 数据仓库技术 VLDB技术 面临的问题 信息量过大,超过了人们掌握、消化的能力 一些信息真伪难辨,难以正确运用 信息组织形式的不一致性,增加信息处理难度 新的认识 隐藏在数据之后更深层次、更重要的信息能够描述数据的整体特征,可以预测发展趋势,在决策中具有重要价值。 数据挖掘技术发展历程 数据挖掘技术发展历程 面对海量数据库和大量繁杂信息,如何从中提取有价值的知识,提高信息的利用率,引发了一个新的研究方向:基于数据库的知识发现KDD(Knowledge Discovery in Database)以及相应的数据挖掘(Data Mining)理论和技术的研究。 1989年第十一届AAAI学术会议上首次出现KDD一词 其后,在VLDB(Very Large Database)及其他与数据库领域相关的国际学术会议上也举行了KDD专题研讨会。 1995年召开第一届KDD国际学术会议(KDD’95) 随后,每年召开一次这样的会议。 1997年《Knowledge Discovery and Data Mining》 该领域的第一本学术刊物,由Kluwers Publishers出版发行。 1999年召开第三届亚太地区知识发现和数据挖掘国际会议 这次北京会议将国内数据挖掘的研究推向新的高潮。 随后,KDD的研究工作蓬勃展开 KDD的定义 公认的定义是1996年Fayyad等人提出的。 所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。 The nontrivial process of identifying valid, novel, useful and ultimately understandable patterns in data. KDD的过程 数据准备 了解KDD应用领域的有关情况。包括熟悉相关的背景知识,搞清用户需求。 数据选取 根据用户的需要从原始数据库中选取相关数据或样本。 数据预处理 检查数据的完整性及一致性,消除噪声,滤除与数据挖掘无关的冗余数据,填充丢失的数据。 数据变换 通过投影或利用数据库的其他操作减少数据量。 确定目标 根据用户的要求,确定KDD要发现的知识类型。 KDD的过程 选择算法 选择合适的知识发现算法,包括选取合适的模型和参数。 数据挖掘 运用前面选择的算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。 模式解释 对在数据挖掘步骤中发现的模式(知识)进行解释。经过用户或机器评估后,剔除冗余或无关的模式。 知识评价 将发现的知识以用户能理解的方式呈现给用户。这期间包含对知识一致性的检查,以确信发现的知识不会与以前发现的知识相抵触。 数据与系统的特征 KDD和数据挖掘可以应用在很多领域,KDD系统及其面临的数据具有一些公共特征和问题: 海量数据集。 数据利用非常不足。 在开发KDD系统时,领域专家对该领域的熟悉程度至关重要。 最终用户专门知识缺乏。 数据结构与类型 数据库中的数据 数字实体:数字、向量、二维矩阵或多维数组等。 符号实体:用来描述定性的量(如黑暗、明亮等)。 概念实体:描述某些概念等级时就会面对复合数据类型。 KDD观点的数据 更关注对象间的等级差异 信息颗粒化(Granularity) 数据分布 数据结构与类型 数据结构与类型 数据库系统分类 关系数据库 由表组成,每个表有一个唯一的表名。属性(列或域)集合组成表结构,表中数据按行存放,每一行称为一个记录。记录间通过键值加以区别。关系表中的各个属性域描述了表间的联系。 是目前最流行、最常见的数据库之一,为数据挖掘研究工作提供了丰富的数据源。 数据仓库 把来自不同数据源的信息以同一模式保存在同一个物理地点。 数据仓库是面向问题的、集成的、随时间变化的、相对稳定的数据集,为管理决策提供支持。 根据多维数据库结构建模,每一维代表一个属性集,每

文档评论(0)

djdjix + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档