- 17
- 0
- 约4.78千字
- 约 32页
- 2017-03-18 发布于贵州
- 举报
本章小结 重点掌握 数据挖掘的过程(数据预处理,数据挖掘,知识评估与表示) 关联分析:频繁项集,关联规则和置信度 聚类分析 离群点分析 分类和预测:判定树,期望信息,信息增益 演化分析 物联网环境下数据挖掘的应用 第13章 数据挖掘 13.1 数据挖掘概述 13.2 数据挖掘的基本类型和算法 13.3 智能决策与物联网 本章内容 13.1 数据挖掘概述 数据挖掘 从大量数据中获取潜在有用的并且可以被人们理解的模式的过程 反复迭代的人机交互和处理过程,历经多个步骤,并且在一些步骤中需要由用户提供决策 13.1 数据挖掘概述 数据挖掘过程 数据预处理阶段 数据准备:了解领域特点,确定用户需求 数据选取:从原始数据库中选取相关数据或样本 数据预处理:检查数据的完整性及一致性,消除噪声等 数据变换:通过投影或利用其他操作减少数据量 数据挖掘阶段 确定挖掘目标:确定要发现的知识类型 选择算法:根据确定的目标选择合适的数据挖掘算法 数据挖掘:运用所选算法,提取相关知识并以一定的方式表示 知识评估与表示阶段 模式评估:对在数据挖掘步骤中发现的模式(知识)进行评估 知识表示:使用可视化和知识表示相关技术,呈现所挖掘的知识 13.1 数据挖掘概述 13.1 数据挖掘概述 13.2 数据挖掘的基本类型和算法 13.3 智能决策与物联网 本章内容 13.2 数据挖掘的基本类型和算法 数据挖掘的基本类型 关联分析 聚类分析 离群点分析 分类与预测 演化分析 描述性挖掘任务:刻划数据库中数据的一般特性 预测性挖掘任务:在当前数据上进行推断和预测 关联分析 关联分析是从给定的数据中发现频繁出现的模式,即关联规则 关联规则通常的表述形式是X Y,表示“数据库中满足条件X的记录(元组)可能也满足条件Y” 以某电器商场销售记录为例: 含义:4% (支持度)的顾客的年龄在20至29岁且月收入在3000至5000元,且这样的顾客中,65% (置信度)的人购买了笔记本电脑 关联分析 挖掘关联规则,需要置信度和支持度越高越好 基本概念 项集:满足若干条件的数据项的集合,如果条件数为k,则称k项集 满足年龄(顾客, “20~29”)的项集是1项集 满足年龄(顾客, “20~29”) 收入(顾客, “3000~5000”)的项集是2项集 计算步骤 首先找到具备足够支持度的项集,即频繁项集 然后由频繁项集构成关联规则,并计算置信度 关联分析 如何寻找频繁项集 Apriori算法 基本思想:利用已求出的k项集来计算(k+1)项集 首先计算频繁1项集 然后根据两个频繁k项集{p1, p2, ..., pk},{q1, q2, ..., qk}计算频繁(k+1)项集,其中pi=qi,1=i=k-1,且该(k+1)项集为{p1, p2, ..., pk, qk} 最后判定该(k+1)项集是否频繁 缺点:可能产生大量候选项集,并需要重复地扫描数据库 FP-Growth算法 利用树状结构保存项集,从而减小了计算频繁项集所需的存储空间 关联分析 如何由频繁项集构造关联规则,并计算置信度 关联规则A B的置信度 其中count(A AND B)为满足条件A以及B的数据项数目,count(A)为满足条件A的数据项数目 计算步骤 对于每一个频繁项集S,计算S的所有非空子集 对于每个S的非空子集F,若 大于给定置信度阈值,则得到一个关联规则 聚类分析 聚类分析是将数据对象划分为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大 聚类与分类的区别:要划分的类是事先未知的 聚类分析的应用 聚类分析 聚类分析的方法 划分方法:事先给定聚类的数目k,创建一个初始划分,然后通过对划分中心点的反复迭代来改进划分。典型算法包括k-means算法和k-medoids算法等 层次方法:对给定数据集合进行逐层递归的合并或者分裂,分为合并或分裂方法。合并方法首先将每个对象都作为独立的类,然后持续合并相近的类,直到达到终止条件为止。分裂方法首先将所有的数据对象置于一个类中,然后反复迭代并判定当前的类是否可以被继续分裂,直到达到终止条件为止 基于密度的方法:只要某区域数据密度超过阈值,就将该区域的数据进行聚类。其优势在于噪音数据下的抗干扰能力,并能够发现任意形状的聚类 聚类分析 基于网格的方法:把对象空间量化为具有规则形状的单元格,从而形成一个网格状结构。在聚类的时候,将每个单元格当作一条数据进行处理。优点是处理速度很快,因处理时间与数据对象数目无关,而只与量化空间中的单元格数目相关 基于模型的方法:如果事先已知数据是根据潜在的概率分布生成的,基于模型的方法便可为每个聚类构建相关的数据模型,
您可能关注的文档
- java附件一 文献综述jva附件一 文献综述java附件一 文献综述java附件一 文献综述.doc
- k模具121演讲稿k模具11演讲稿21演讲稿.doc
- edgar allan peedgar allan poeedgar allan poeedgar allan poe.ppt
- java面向对象编程2jaa面向对象编程2java面向对象编程2java面向对象编程2.ppt
- l4b1kdeutsch 语语法l4b1kdeutsch 德语语法l4b1kdeutsch 德语语法l4b1kdeutsch 德语语法.ppt
- leadership skll .ppt(team leader)leadership skill .ppt(team leader)leadership skill .ppt(team leader)leadership skill .ppt(team leader).ppt
- m5u3reading 1the_perfect_copym5u3reading 1 the_perfect_copym5u3reading 1 the_perfect_copym5u3reading 1 the_perfect_copy.ppt
- cnki-功能详解cnki功能详解-功能详解.ppt
- crm操作说明书crm操作明书说明书.doc
- iqc培训教材1iqc培训材1教材1.ppt
- 2026德阳市什邡市妇幼保健院招聘(4人)备考试题及答案详解一套.docx
- 2026德阳市什邡市妇幼保健院招聘(4人)备考试题参考答案详解.docx
- 2025-2026学年统编版九年级下册地理专项素养巩固训练卷(五)附答案解析.docx
- 2026德州宁津县人民医院招聘卫生技术人员1人备考试题及完整答案详解1套.docx
- 2026德州宁津县人民医院招聘卫生技术人员1人备考试题及答案详解1套.docx
- 2026德州宁津县人民医院招聘卫生技术人员1人备考试题及参考答案详解一套.docx
- 2026德力佳传动科技(江苏)股份有限公司招聘备考试题含答案详解.docx
- 2026德州宁津县人民医院招聘卫生技术人员1人备考试题及参考答案详解1套.docx
- 2026德力佳传动科技(江苏)股份有限公司招聘备考试题附答案详解.docx
- 污水处理厂提质及配套管网建设项目建议书.docx
原创力文档

文档评论(0)