数据挖掘常用技术read.ppt

下载文档 降价啦

7
0
约9.5千字
约 58页
2018-03-07 发布于天津
举报
保障服务

数据挖掘常用技术read.ppt

数据挖掘常用技术read

数据挖掘技术简介赵传慧收集整理 5、偏差型知识(Deviation) 数据挖掘也可以发现其他类型的知识，如偏差型知识(Deviation)，它是对差异和极端特例的描述，揭示事物偏离常规的异常现象，如标准类外的特例，数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现，并随着概念层次的提升，从微观到中观、到宏观，以满足不同用户不同层次决策的需要孤立点数据分析、欺骗检测等四、在何种数据上进行数据挖掘原则上讲，DM可以在任何类型的信息存储上进行。包括关系数据库数据仓库高级数据库展开文件 WWW 四、在何种数据上进行数据挖掘关系数据库：是表的集合，每个表都赋予一个唯一的名字。关系数据库是数据挖掘最流行的、最丰富的数据源。数据挖掘用于关系数据库时，可以搜索趋势或数据模式，也可以检测偏差四、在何种数据上进行数据挖掘数据仓库：是从多个数据源收集的信息存储，存放在一个一致的模式下，并通常驻留在单个站点。数据仓库通过数据清理、变换、集成、装入和刷新来构造。通常用多维数据库结构建模。典型数据仓库结构四、在何种数据上进行数据挖掘四、在何种数据上进行数据挖掘事物数据库：由一个文件组成，其中每个记录代表一个事务。购物篮数据分析大部分关系数据库系统不支持嵌套关系结构四、在何种数据上进行数据挖掘高级数据库，包括面向对象的数据库对象-关系数据库空间数据库时间数据库和时间序列数据库文本数据库和多媒体数据库异种数据库和遗产数据库 WWW 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务有两类：描述和预测描述性挖掘任务刻画数据库中数据的一般特性；预测性数据挖掘任务在当前数据上进行推断、预测 1、概念描述 2、关联分析 3、自动预测趋势和行为 4、聚类 5、偏差检测五、数据挖掘的功能概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多，如决策树方法、遗传算法等概念/类描述 Concept/class description 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。关联分析发现关联规则，这些规则展示属性值频繁地在给定数据集中一起出现的条件。关联分析（Association analysis) 2 关联分析（Association analysis) 关联规则(association rule):是形如，即“ ” 的规则，其中的属性值对。描述关联规则属性的四个参数：可信度(confidence):物品集X出现的前提下，Y出现的概率，支持度(support):物品集X、Y同时出现的概率，期望可信度(expected confidence):物品集Y出现的概率作用度(lift):可信度对期望可信度的比值。作用度描述物品集X的出现对物品集Y的出现有多大作用的影响。因为Y在所有事务中出现的概率是期望可信度；而Y在有X出现的事务中出现的概率是可信度，通过可信度对期望可信度的比值反映了在加入“X出现”的这个条件后，Y的出现概率发生了多大变化四个参数中，最常用的是可信度和支持度。关联规则有一定的商业价值。请看例子：例1、超级商场中购买面包和黄油该关联规则的可信度就回答这样一个问题：如果一个顾客购买了面包，那么也购买黄油的可能性有多大？如购买面包的顾客中有70%的人购买了黄油，则可信度为如果某天共有1000个顾客到商场购买物品，其中有100个顾客同时购买了面包和黄油，则关联规则的支持度为如果某天共有1000个顾客到商场购买物品，其中有200个顾客购买了黄油，则关联规则的期望可信度为例2、给定AllElectronics数据库，可能发现的关联规则是：其中是变量，代表顾

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘常用技术read.ppt