- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2020/1/24 1 数据挖掘入门 信息技术中心 陈孝良 2020/1/24 2 一. 数据挖掘定义 二. 数据挖掘过程 三. 数据挖掘方法分类 四. 可视化数据挖掘结果 2020/1/24 3 一、数据挖掘定义 ? 什么激发了数据挖掘 近年来,数据挖掘引起了信息产业界的极大关注,其 主要原因是存在大量数据可以广泛使用,并且迫切需要将 这些数据转换成有用的信息和知识。获取的信息和知识可 以广泛应用于各种领域,如商务管理、生产控制、市场分 析、工程设计和科学探索等。 面对海量数据库和大量繁杂信息,如何才能从中提取 有价值的知识,进一步提高信息的利用率,由此引发了一 个新的研究方向:基于数据库的知识发现( Knowledge Discovery in Database )及相应的数据挖掘( Data Mining ) 理论和技术的研究。 2020/1/24 4 ? 为什么数据挖掘是重要的 数据的丰富带来了对强有力的数据分 析工具的需求。快速增长的海量数据收集 存放在大型和大量的数据库中,没有强有 力的工具,这些数据就变成了“数据坟 墓” —— 难得再访问的数据档案。因此数 据和信息之间的鸿沟要求系统地开发数据 挖掘工具,将数据坟墓转换成知识“金 块”。 2020/1/24 5 ? 什么是数据挖掘 1. 数据挖掘(从数据中发现知识) 从海量的数据中抽取感兴趣的(有价值的、隐含的、 以前没有用但是潜在有用信息的)模式和知识。 2. 其它可选择的名字 数据库中知识挖掘、知识提取、数据 / 模式分析、数据 考古、数据捕捞、信息获取、事务智能等。 3. 广义观点 数据挖掘是从存放在数据库、数据仓库中或其它信息 库中的大量数据中挖掘有趣知识的过程。 2020/1/24 6 ? 数据挖掘系统的组成 ? 数据库、数据仓库或其他信息库:是一个或一 组数据库、数据仓库、电子表格或其他类型的 信息库。可以在数据上进行数据清理和集成。 ? 数据库或数据仓库服务器:根据用户的挖掘请 求,数据库或数据仓库服务器负责提取相关数 据。 ? 知识库:是领域知识,用于指导搜索,或评估 结果模式的兴趣度。 2020/1/24 7 ? 数据挖掘引擎:数据挖掘系统的基本部分,由 一组功能模块组成,用于特征化、关联、分类、 聚类分析以及演变和偏差分析。 ? 模式评估模块:使用兴趣度量,并与数据挖掘 模块交互,以便将搜索聚焦在有趣的模式上, 可能使用兴趣度阈值过滤发现的模式。 ? 图形用户界面:该模块在用户和数据挖掘系统 之间通信,允许用户与系统交互,指定数据挖 掘查询或任务,提供信息,帮助搜索聚焦,根 据数据挖掘的中间结果进行探索式数据挖掘。 2020/1/24 8 数据挖掘系统结构 数据仓库 数据清理 数据集成 过滤 数据库 数据库或数据仓库 服务器 数据挖掘引擎 模式评估 图形用户界面 知识库 2020/1/24 9 知识发现( KDD )的过程 数据清理筛选 数据 目标数据 预处理 及变换 变换后的数据 数据挖掘 解释 / 评估 2020/1/24 10 二、数据挖掘过程 定义商业问题 收集数据 准备数据 选择挖掘模型 分析和挖掘 形成解决方案 指导 2020/1/24 11 ? 定义商业问题 在企业中如何定义并鉴别一个商业问题很关键, 找出问题并分析问题 ? 收集数据 找到所需要的数据资源,并分析数据源中的数据 格式,同时考虑到定义的数据集市的数据格式 ? 准备数据 根据数据源的数据转化为数据仓库中所需要数据, 所使用的方法有:名称映射表,随机样本数,行 过滤,数据转换,数据缺失处理等 2020/1/24 12 ? 选择挖掘模型 定义好所需要挖掘模型,如聚类,决策树 等,每一类数据适合不同的模型,但也可 以同时使用两个模型进行挖掘 ? 挖掘和分析 根据所得到数据及挖掘模型实施数据挖掘 ? 实施挖掘方案 得到隐藏着,有价值的信息 结合其它分析结果,有效的验证其它的分 析结论 2020/1/24 13 三 数据挖掘方法 分类 数据挖掘 验证驱动挖掘 发现驱动挖掘 SQL SQL 生成器 查询工具 OLAP 描述 预测 可视化 聚类 关联规则 顺序关联 汇总描述 分类 统计回归 时间序列 决策树 神经网路 2020/1/24 14 3. 聚类分析 聚类是对物理的或抽象的对象集合分组的过程。聚 类生成的组为簇,簇是数据对象的集合。簇内部任意两 个对象之间具有较高的相似度,而属于不同簇的两个对 象间具有较高的相异度。 相异度可以根据描述对象的属性值计算,对象间的 距离是最常采用的度量指标。在实际应用中,经常将一 个簇中的数据对象作为一个整体看待。用聚类生成的簇 来表达数据集不可避免地会损失一些信息,但却可以使 问题得到必要的简化。 主要的数据挖掘聚类方法有:划分的方法、层
文档评论(0)