- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Python数据挖掘与机器学习第12章离群点检测
第10章离群点检测本章内容离群点概述离群点检测sklearn中的异常值检测方法14六月20252
1离群点概述3数据库中的数据由于各种原因常常会包含一些异常记录,对这些异常记录的检测和解释有很重要的意义。异常检测目前在入侵检测、工业损毁检测、金融欺诈、股票分析、医疗处理等领域都有着比较好的实际应用效果。异常检测的实质是寻找观测值和参照值之间有意义的偏差。离群点检测是异常检测中最常用的方法之一,是为了检测出那些与正常数据行为或特征属性差别较大的异常数据或行为。
1离群点概述4离群点的概念离群点(Outlier)是指显著偏离一般水平的观测对象。离群点检测(或称异常检测)是找出不同于预期对象行为的过程。离群点的本质仍然是数据对象,但它与其他对象又显著差异,又被称为异常值。
1离群点概述5离群点不同于噪声数据。噪声是指被观测数据的随机误差或方差,观测值是真实数据与噪声的混合。而离群点属于观测值,既可能是真实数据产生,也有可能由噪声带来。离群点的产生主要有以下原因:1.第一类离群值是总体固有变异性的极端表现,这类离群值与样本中其余观测值属于同一总体。2.第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,这类离群值与样本中其余观测值不属于同一总体。
1离群点概述6离群点的类型:全局离群点、条件离群点和集体离群点。1.全局离群点当一个数据对象明显地偏离了数据集中绝大多数对象时,该数据对象就是全局离群点(GlobalOutlier)。全局离群点有时也称为点异常,是最简单的一类离群点。如图10-1中区域R中的点,它们显著偏离数据集的绝大多数的数据对象,因此属于全局离群点。
1离群点概述7离群点的类型:全局离群点、条件离群点和集体离群点。2.条件离群点与全局离群点不同,当且仅当在某种特定情境下,一个数据对象显著地偏离数据集中的其他对象时,该数据对象被称为条件离群点(ContextualOutlier)。一般地,在情境离群点检测中所考虑对象的属性划分为条件属性和行为属性。条件属性是指数据对象的定义中定义情境的属性。行为属性指数据对象中定义对象特征的属性。
1离群点概述8离群点的类型:全局离群点、条件离群点和集体离群点。3.集体离群点当数据集中的一些数据对象显著地偏离整个数据集时,该集合形成集体离群点(CollectionOutlier)。不同于全局或条件离群点,在集体离群点检测中,除了考虑个体对象的行为,还要考虑集体的行为。
1离群点概述9离群点检测的挑战:1.正常对象和离群点的有效建模2.针对应用的离群点检测3.在离群点检测中处理噪声4.可理解性
2离群点的检测离群点的检测方法很多,每种方法在检测时都会对正常数据对象或离群点作出假设,从所做假设的角度,离群点检测方法可以分为基于统计学的离群点检测、基于近邻的离群点检测、基于聚类以及基于分类的离群点检测。10
2离群点的检测基于统计学的离群点检测在基于统计学的离群点检测方法中,假设数据集中的正常数据对象由一个统计模型产生,如果某数据不符合该统计模型,则该数据对象是离群点。在基于统计的离群点检测过程中,一般先设定数据集的分布模型,如正态分布、泊松分布和二项式分布等,然后根据模型进行不和谐检验以发现离群点。不和谐检验中需要样本空间数据集的参数知识、分布的参数知识以及期望的离群点数目。11
2离群点的检测基于统计学的离群点检测12
2离群点的检测2基于邻近性的离群点检测给定特征空间中的数据对象集,可以使用距离度量对象之间的相似性。直观地,远离其他大多数对象的数据对象被视为离群点。基于邻近性的方法假定离群点对象与它最近邻的邻近性显著偏离数据集中其他对象与其近邻之间的邻近性。基于邻近型的离群点检测方法有基于距离的和基于密度的方法。13
2离群点的检测基于邻近性的离群点检测(1)基于距离的离群点检测方法在基于距离的离群点检测方法中,离群点就是远离大部分对象的点,即与数据集中的大多数对象的距离都大于某个给定阈值的点。基于距离的检测方法考虑的是对象给定半径的邻域。如果在某个对象的邻域内没有足够的其他的点,则称此对象为离群点。基于距离的离群点方法有嵌套-循环算法、基于索引的算法和基于单元的算法。14
2离群点的检测基于邻近性的离群点检测(1)基于距离的离群点检测方法基于距离的离群点方法有嵌套-循环算法、基于索引的算法和基于单元的算法。下面简要介绍嵌套-循环算法。15
2离群点的检测基于邻近性的离群点检测(2)基于密度的离群点检测方法基于密度的离群点检测方法考虑的是对象与它近邻的密度。如果一个对象的密度相对于它的近邻低得多,则被视为离群点。最有代
您可能关注的文档
- Python数据分析与挖掘- 教案全套 .doc
- Python数据分析与挖掘-教学进度表.doc
- Python数据分析与挖掘-课程教学大纲.docx
- Python数据分析与挖掘 课件 第 1 章 数据挖掘与机器学习概论.pptx
- Python数据分析与挖掘 课件 第 2 章 Python编程基础.pptx
- Python数据分析与挖掘 课件 第 3 章 NumPy数值计算基础.pptx
- Python数据分析与挖掘 课件 第 4 章 pandas数据分析.pptx
- Python数据分析与挖掘 课件 第 5 章 Python数据可视化.pptx
- Python数据分析与挖掘 课件 第 5 章 Python数据可视化-录课无编号.pptx
- Python数据分析与挖掘 课件 第 6 章 认识数据.pptx
文档评论(0)