- 44
- 0
- 约4.56千字
- 约 36页
- 2022-10-19 发布于浙江
- 举报
数据挖掘
2
Chapter 9.1
离群点定义与类型
离群点:是一个数据对象,它显著不同于其他数据对,好像它是被不同的机制产生的一样。
例如: 不同寻常的信用卡交易
离群点不同于噪声数据
噪声数据是被观测变量的随机误差或方差
噪声数据应在离群点检测前被删除
离群点产生原因:
计算的误差或者操作的错误所致
数据本身的可变性或弹性所致
什么是离群点:
9.1 离群点定义与类型
4
图9-1区域O中的对象为离群点
5
三类: 全局离群点, 条件离群点和集体离群点。
全局离群点 (或点异常)
如果一个数据对象显著的偏离数据集的其余部分,则这个数据对象为全局离群点。
条件离群点
一个数据对象,如果关于对象的特定情境,它显著偏离其他对象。
例如: 多伦多的温度为28。 C,这是离群点吗? (取决于冬天还是夏天)
数据对象的属性划分为两组。
情境属性: 定义对象的情境,例如, 时间和地点。
行为属性: 定义对象的特征, 并用来评估对象关于它所处的情境是否为离群点。例如,温度。
离群点的类型:
9.1 离群点定义与类型
6
集体离群点
给定一个数据集,数据对象的一个子集作为整体显著偏离整个数据集,数据对象的这个子集称为集体离群点。
应用:在入侵检测时, 多台计算机不断地相互发送拒绝服务包,则它们可以视为集体离群点,所涉及的计算机可能受到攻击。
数据集可能有多种类型的离群点。
一个对象可能属于多种类型的离群点。
9.1 离群点定义与类型
图9-2黑色对象形成集体离群点
Chapter 9.2
离群点检测
离群点的检测方法有很多,每种方法在检测时,都会对正常数据对象或离群点做出假设。从这个假设的角度考虑,离群点检测方法可以分为:
基于统计学的离群点检测;
基于近邻的离群点检测;
基于聚类的离群点检测;
基于分类的局部离群点检测。
8
9.2离群点检测
1. 统计学方法:
9
9.2离群点检测
基于统计分布的检测方法是为数据集构建一个概率统计模型(例如正态、泊松、二项式分布等,其中的参数由数据求得),然后根据模型采用不和谐检验识别离群点。图9.1给出了基于统计分布的检测流程。
图9.1 基于统计的离群点检测流程
不和谐检验需要检查两个假设:工作假设和备择假设。工作假设指的是如果某样本点的某个统计量相对于数据分布的是显著性概率充分小,则认为该样本点是不和谐的,工作假设被拒绝,此时备择假设被采用,它声明该样本点来自于另一个分布模型。如果某个样本点不符合工作假设,那么认为它是离群点。如果它符合备择假设,认为它是符合某一备择假设分布的离群点。
工作假设H为,假设n个对象的整个数据集来自一个初始的分布模型F,即:
H: oi∈F,其中i=1,2,…,n
不和谐检验就是检查对象oi关于分布F是否显著地大(或小)。
10
9.2离群点检测
不和谐检验:
11
9.2离群点检测
基于正态分布的一元离群点检测
正态分布曲线特点:N(μ,σ2)
变量值落在(μ-σ,μ+σ)区间的概率是68.27%
变量值落在(μ-2σ,μ+2σ)区间的概率是95.44%
变量值落在(μ-3σ,μ+3σ)区间的概率是99.73%
12
9.2离群点检测
基于正态分布的一元离群点检测
一般的,设属性X取自具有期望值μ,方差σ2的正态分布N(μ,σ2),
如果属性X满足:P(|X|≥C)=α,
其中C是一个选定的常量,则X以概率1-α为离群点。
例9.1 基于统计方法检测年龄离群点
设儿童上学的具体年龄总体服从正态分布,所给的数据集是某地区随机选取的开始上学的20名儿童的年龄。具体的年龄特征如下:
年龄={6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12}
相应的统计参数是:均值m=9.1;标准差s=2.3。
如果选择数据分布的阈值q按如下公式计算:q=m±2×s,则阈值下限与上限分别为4.5和13.7。
如果将工作假设描述为:儿童上学的年龄分布在阈值设定区间内,则依据不和谐检验,不符合工作假设的,即在[4.5,13.7]区间以外的年龄数据都是潜在的离群点,将最大值取整为13,所以年龄为14的孩子可能是个例外。
13
9.2离群点检测
统计方法的离群点检测的优缺点:
优点
建立在非常标准的统计学原理之上,当数据和检验的类型十分充分时,检验十分有效。
缺点
①多数情况下,数据的分布是未知的或数据几乎不可能用标准的分布来拟合,虽然可以使用混合分布对数据建模,基于这种模型开发功能更强的离群挖掘方案,但这种模型更复杂,难以理解和使用。
②当观察到的分布不能恰当地用任何标准的
原创力文档

文档评论(0)