- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第7章.聚类分析什么是聚类(Clustering)分析?聚类分析中的数据类型主要聚类方法分类划分方法(PartitioningMethods)层次方法(HierarchicalMethods)基于密度的方法(Density-BasedMethods)基于网格的方法(Grid-BasedMethods)基于模型的聚类方法(Model-BasedClusteringMethods)孤立点分析(OutlierAnalysis)小结孤立点分析什么是孤立点?对象的集合,它们与数据的其它部分不一致孤立点可能是度量或执行错误所导致的孤立点也可能是固有的数据变异性的结果问题给定一个n个数据点或对象的集合,及预期的孤立点的数目k,发现与剩余的数据相比是相异的,例外的,或不一致的前k个对象两个子问题:定义在给定的数据集合中什么样的数据可以被认为是不一致的找到一个有效的方法来挖掘这样的孤立点孤立点分析应用:信用卡欺诈检测电信欺诈检测顾客分割:确定极低或极高收入的客户的消费行为医疗分析:发现对多种治疗方式的不寻常的反应孤立点的定义是非平凡的如果采用一个回归模型,余量的分析可以给出对数据“极端”的很好的估计当在时间序列数据中寻找孤立点时,它们可能隐藏在趋势的,周期性的,或者其他循环变化中,这项任务非常棘手当分析多维数据时,不是任何特别的一个,而是维值的组合可能是极端的.对于非数值型的数据(如分类数据),孤立点的定义要求特殊的考虑采用数据可视化方法来进行孤立点探测如何?1不适用于包含周期性曲线的数据2对于探测有很多分类属性的数据,或高维数据中的孤立点效率很低3方法4统计学方法5基于距离的方法6基于密度的方法7孤立点分析基于统计学的孤立点检测对给定的数据集合假设了一个分布或概率模型(例如,正态分布),然后根据模型采用不一致性检验(discordancytest)来确定孤立点检验要求的参数数据集参数:例如,假设的数据分布分布参数:例如平均值和方差和预期的孤立点的数目统计学的不一致性检验需要检查的两个假设工作假设(workinghypothesis)替代假设(alternativehypothesis)基于统计学的孤立点检测工作假设H是一个命题:n个对象的整个数据集合来自一个初始的分布模型F,即H:Oi∈F,i=1,2,…,n不一致性检验验证一个对象Oi关于分布F是否显著地大(或者小)依据关于数据的可用知识,已提出不同的统计量用于不一致性检验假设某个统计量被选择用于不一致性检验,对象Oi的该统计量的值为Vi,则构建分布T估算显著性概率SP(Vi)=Prob(TVi)如果某个SP(Vi)是足够的小,那么Oi是不一致的,工作假设被拒绝.替代假设被采用,它声明Oi来自于另一个分布模型G检测一元正态分布中的离群点检测一元正态分布中的离群点若考察的属性服从正态分布,可以用属性的出现概率确定是否离群点.出现概率低于一个阈值,就可以认为该属性是一个离群点.确定的方法由下面定义:检测一元正态分布中的离群点出现概率在2.5%左边或者右边的属性都可以作为离群点,因为概率小于给定的阈.检测二元正态分布中的离群点用mahalanobis距离来衡量是否离群点,距离超过一个阈值就是离群点.检测二元正态分布中的离群点检测二元正态分布中的离群点若A、B的距离超过一个阈值,它们就是离群点。A的Mahalanobis距离比B大,证明A离中心点更远.基于统计学的孤立点检测结果非常依赖于模型F的选择Oi可能在一个模型下是孤立点,在另一个模型下是非常有效的值替代分布在决定检验的能力上是非常重要的不同的替代分布固有的替代分布(inherentalternativedistribution):所有对象来自分布F的工作假设被拒绝,而所有对象来自另一个分布G的替代假设被接受混合替代分布(mixturealternativedistribution):不一致的值不是F分布中的孤立点,而是来自其他分布的污染物滑动替代分布(slippagealternativedistribution):所有的对象(除了少量外)根据给定的参数,独立地来自初始的模型F,而剩余的对象是来自修改过的F的独立的观察检测孤立点有两类基本的过程连续的过程:该过程的一个例子是内部出局(inside-out)过程首先检验最不可能是孤立点的对象.如果它是孤立点,那么所有更极端的值都被认为是孤立点;否则,检验下一个极
您可能关注的文档
- 血气分析的常用指标及其意义-(66.5k).ppt
- 肾上腺皮质激素类药物(IV).ppt
- 证券投资基金学生.ppt
- 遗传的染色体学说.ppt
- 细胞的血型和血细胞.ppt
- 航空发动机轴承总结.ppt
- 苏教版一年级上册数学《连加连减》课件PPT.ppt
- 边塞诗的主要表现手法.ppt
- 精品解析:北京市海淀区2024届高三下学期查漏补缺数学试题(解析版).docx
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第5章 植物生命活动的调节》大单元整体教学设计[2020课标].pdf
- 2020版 沪科技版 高中生物学 必修2 遗传与进化《第4章 生物的进化》大单元整体教学设计[2020课标].docx
- 情绪价值系列报告:春节消费抢先看-国证国际证券.docx
- 精品解析:北京市东直门中学2023-2024学年高二下学期3月阶段性考试(选考)物理试题(解析版).docx
- 2020版 沪科技版 高中生物学 必修2 遗传与进化《第4章 生物的进化》大单元整体教学设计[2020课标].pdf
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第1章 人体的内环境和稳态》大单元整体教学设计[2020课标].pdf
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第1章 人体的内环境和稳态》大单元整体教学设计[2020课标].docx
- 液冷盲插快接头发展研究报告-全球计算联盟.docx
- 精品解析:北京市东直门中学2023-2024学年高二下学期3月阶段性考试(选考)物理试题(原卷版).docx
- 精品解析:北京市东直门中学2024届高三考前练习数学试卷(解析版).docx
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第2章 人体的神经调节》大单元整体教学设计[2020课标].docx
文档评论(0)