数据挖掘的初步了解
数据挖掘的初步了解 刘超 1.数据挖掘产生的历史背景 数据爆炸问题 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。 我们拥有丰富的数据,但却缺乏有用的信息 解决方案:数据仓库技术和数据挖掘技术 数据挖掘的概念定义 数据挖掘 (从数据中发现知识) 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)(着重强调有效的和可伸缩的数据挖掘技术) 数据挖掘的替换词 数据库中的知识挖掘(KDD) 知识提炼、 数据/模式分析 数据考古 数据捕捞、信息收获等等。 数据挖掘: 数据库中的知识挖掘(Knowledge Discovery in Databases ) 数据挖掘——知识挖掘的核心 KDD的步骤 从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识 数据清理: (这个可能要占全过程60%的工作量) 数据集成 数据选择 数据变换 数据挖掘(选择适当的算法来找到感兴趣的模式) 模式评估 知识表示 典型数据挖掘系统的体系结构 并非所有的东西都是数据挖掘 一般能进行查询处理的数据库系统和专家系统或是小型的数学计算统计程序并不能算是数据挖掘 基于数据仓库的OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。 相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合 数据挖掘所进行的数据对象 关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 空间数据库 时间数据库和时间序列数据库 流数据 多媒体数据库 面向对象数据库和对象-关系数据库 异种数据库和历史(legacy)数据库 文本数据库和万维网(WWW 数据挖掘应用 市场分析和管理 公司分析和风险管理 欺诈行为检测和异常模式 数据挖掘的主要功能 ——可以挖掘哪些模式? 一般功能 描述性的数据挖掘 预测性的数据挖掘 通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括: 概念/类描述: 特性化和区分 关联分析 分类和预测 聚类分析 孤立点分析 趋势和演变分析 模式兴趣度相关度量标准 数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。 模式兴趣度的度量 一个模式是有趣的,如果(1) 它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设 模式兴趣度的客观和主观度量 客观度量: 基于所发现模式的结构和关于它们的统计, 比如: 支持度、置信度等等 主观度量: 基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等 数据挖掘:多个学科的融合 数据挖掘的主要问题 (1) 数据挖掘是多个学科融合,但本课程所关注的是:海量数据的挖掘的效率和可扩展性或可伸缩性 本课程中所要涵盖的主要数据挖掘问题包括: 挖掘方法问题和用户交互问题 在数据库中挖掘不同类型的知识 在不同抽象层上的交互式知识挖掘 背景知识的合并 数据挖掘查询语言和特定的数据挖掘 数据挖掘结果的表示和可视化 处理噪声何不完全数据 模式评估: 兴趣度问题 数据挖掘的主要问题 (2) 性能问题 数据挖掘算法的效率和可扩展性(scalability) 给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据的规模近似线性的增加。 并行,分布式和增量挖掘算法 (数据的分块挖掘) 其他和多样化的数据库类型相关的问题 关系型和复杂数据类型的处理 为特定的数据类型构建特定的数据挖掘系统 从异构数据库中挖掘 WEB数据挖掘 * 数据清理 数据集成 数据库 数据仓库 任务相关数据 选择 数据挖掘 模式评估 数据仓库 数据清洗 过滤 数据库 数据库或数据仓库服务器 数据挖掘引擎 模式评估 图形用户界面 知识库 数据集成 数据挖掘 数据库系统 统计学 其他学科 算法 机器学习 可视化 *
原创力文档

文档评论(0)