CHAPTER12-离群点检测概要.ppt

CHAPTER12-离群点检测概要

Data Mining: Concepts and Techniques Data Mining: Concepts and Techniques 费高雷 通信与信息工程学院 2015年春季 第12章 离群点检测 * 第12章:离群点检测 离群点分析 基于统计学的方法 基于距离的方法 基于偏离的方法 * 离群点分析 什么是离群点? 对象的集合, 它们与数据的其它部分不一致 离群点可能是度量或执行错误所导致 离群点也可能是固有的数据变异性的结果 问题: 给定一个n个数据点或对象的集合, 及预期的离群点的数目k, 发现与剩余的数据相比是相异的, 例外的, 或不一致的前k个对象 两个子问题: 定义在给定的数据集合中什么样的数据可以被认为是不一致的 找到一个有效的方法来挖掘这样的离群点 * 离群点分析 应用: 信用卡欺诈检测 网络流量异常监测 顾客分割: 确定极低或极高收入的客户的消费行为 医疗分析:发现对多种治疗方式的不寻常的反应 离群点的类型 全局离群点:数据对象显著的偏离数据集中的其余对象 情景离群点:如果数据对象在给定特定情景下,显著的偏离其它对象 集体离群点:数据对象的某个子集显著偏离整个数据集 * 离群点分析 采用数据可视化方法来进行离群点探测如何? 不适用于包含周期性曲线的数据 对于探测有很多分类属性的数据, 或高维数据中的离群点效率很低 方法 统计学方法 基于

文档评论(0)

1亿VIP精品文档

相关文档