数据挖掘常用技术read.ppt

数据挖掘常用技术read

数据挖掘技术简介 赵传慧 收集整理 5、偏差型知识(Deviation) 数据挖掘也可以发现其他类型的知识,如偏差型知识(Deviation),它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要 孤立点数据分析、欺骗检测等 四、在何种数据上进行数据挖掘 原则上讲,DM可以在任何类型的信息存储上进行。包括 关系数据库 数据仓库 高级数据库 展开文件 WWW 四、在何种数据上进行数据挖掘 关系数据库:是表的集合,每个表都赋予一个唯一的名字。关系数据库是数据挖掘最流行的、最丰富的数据源。数据挖掘用于关系数据库时,可以搜索趋势或数据模式,也可以检测偏差 四、在何种数据上进行数据挖掘 数据仓库:是从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点。数据仓库通过数据清理、变换、集成、装入和刷新来构造。通常用多维数据库结构建模。 典型数据仓库结构 四、在何种数据上进行数据挖掘 四、在何种数据上进行数据挖掘 事物数据库:由一个文件组成,其中每个记录代表一个事务。购物篮数据分析 大部分关系数据库系统不支持嵌套关系结构 四、在何种数据上进行数据挖掘 高级数据库,包括 面向对象的数据库 对象-关系数据库 空间数据库 时间数据库和时间序列数据库 文本数据库和多媒体数据库 异种数据库和遗产数据库 WWW 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务有两类:描述和预测 描述性挖掘任务刻画数据库中数据的一般特性; 预测性数据挖掘任务在当前数据上进行推断、预测 1、概念描述 2、关联分析 3、自动预测趋势和行为 4、聚类 5、偏差检测 五、数据挖掘的功能 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。 生成一个类的特征性描述只涉及该类对象中所有对象的共性。 生成区别性描述的方法很多,如决策树方法、遗传算法等 概念/类描述 Concept/class description 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。 关联分析 (Association analysis) 2 关联分析(Association analysis) 关联规则(association rule):是形如 ,即“ ” 的规则,其中 的属性值对。描述关联规则属性的四个参数: 可信度(confidence):物品集X出现的前提下,Y出现的概率, 支持度(support):物品集X、Y同时出现的概率, 期望可信度(expected confidence):物品集Y出现的概率 作用度(lift):可信度对期望可信度的比值。 作用度描述物品集X的出现对物品集Y的出现有多大作用的影响。因为Y在所有事务中出现的概率是期望可信度;而Y在有X出现的事务中出现的概率是可信度,通过可信度对期望可信度的比值反映了在加入“X出现”的这个条件后,Y的出现概率发生了多大变化 四个参数中,最常用的是可信度和支持度。 关联规则有一定的商业价值。请看例子: 例1、超级商场中购买面包和黄油 该关联规则的可信度就回答这样一个问题:如果一个顾客购买了面包,那么也购买黄油的可能性有多大? 如购买面包的顾客中有70%的人购买了黄油,则可信度为 如果某天共有1000个顾客到商场购买物品,其中有100个顾客同时购买了面包和黄油,则关联规则的支持度为 如果某天共有1000个顾客到商场购买物品,其中有200个顾客购买了黄油,则关联规则的期望可信度为 例2、给定AllElectronics数据库,可能发现的关联规则是: 其中是变量,代表顾

文档评论(0)

1亿VIP精品文档

相关文档