数据挖掘概论武汉理工大学欢迎您.pptVIP

  • 19
  • 0
  • 约1.59万字
  • 约 111页
  • 2019-03-06 发布于浙江
  • 举报
数据挖掘 数据挖掘:概念与技术 Jiawei Han Micheline Kamber 第一章 引言 数据挖掘与统计学的异同 数据挖掘介绍 数据挖掘系统 数据挖掘算法 国际会议和期刊 主要参考资料 数据挖掘与统计学 统计学和数据挖掘有着共同的目标:发现数据中的结构。 事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。 数据挖掘与统计学 数据挖掘分析海量数据 许多数据库都不适合统计学分析需要 2. 数据挖掘介绍 数据挖掘的由来 数据挖掘的应用 基本概念区分 数据挖掘基本内容 数据挖掘基本特征 数据挖掘的其他主题 数据挖掘的由来 数据泛滥问题 自动数据收集工具和成熟的数据库技术使得大量数据存储于数据库,数据仓库和其他信息库。 数据爆炸但知识贫乏 解决办法:数据仓库和数据挖掘 数据仓库和联机分析处理 大型数据库中的有趣知识(规则、模式) 什么是数据挖掘 数据挖掘(Data Mining)是一个多学科交叉研究领域,它融合了数据库(database)技术、人工智能(Artificial Intelligence)、机器学习(Machine Learning)、统计学(Statistics)、知识工程(Knowledge Engineering)、面向对象方法(Object-Oriented Methods)、信息检索(Information Retrieval)、高性能计算(High-Performancd Computing)以及数字可视化(Data Visualization)等最新技术的研究成果。 数据挖掘是多学科的产物 数据挖掘被关注的原因 数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。 数据挖掘是信息技术自然进化的结果 数据库、数据仓库和Intenet等信息技术的发展。 计算机性能的提高和先进的体系结构的发展。 统计学和人工智能等方法在数据分析中的研究和应用。 网络之后的下一个技术热点 大量信息在给人们带来方便的同时也带来了一大堆问题: 信息过量,难以消化 信息真假难以辨识 信息安全难以保证 信息形式不一致,难以统一处理 数据丰富,但信息贫乏 人类已进入一个崭新的信息时代 数据库中存储的数据量急剧膨胀 需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率 产生了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Database),以及相应的数据挖掘(Data Mining)理论和技术的研究 随着大数据库的建立和海量数据的不断涌现,必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富,而信息相当贫乏。” 快速增长的海量数据收集、存放在大型数据库中,没有强有力的工具,理解它们已经远远超出人的能力。因此,有人称之为:“数据坟墓”。 由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。 数据挖掘是从大量数据中提取或“挖掘”知识。 数据挖掘视为数据库中知识发现过程基本步骤的主要环节 知识发现过程由以下步骤组成: 数据清理(消除噪音或不一致数据) 数据集成(多种数据源可以组合在一起) 数据选择(从数据库中提取与分析任务相关的数据) 数据变换(数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作) 数据挖掘(基本步骤,使用智能方法提取数据模式) 模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式;) 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。 数据挖掘系统具有的主要成分 数据库、数据仓库、或其它信息库:这是一个或一组数据库、数据仓库、展开的表、或其它类型的信息库。可以在数据上进行数据清理和集成。 数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。 知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识的其它例子有兴趣度限制或阈值和元数据(例如,

文档评论(0)

1亿VIP精品文档

相关文档