数据挖掘原理算法与应用教学作者梁亚声第4章节电子教案课件幻灯片.ppt

下载文档

9
0
约4.59万字
约 173页
2018-03-26 发布于广东
举报
版权申诉
保障服务

数据挖掘原理算法与应用教学作者梁亚声第4章节电子教案课件幻灯片.ppt

1、本文档共173页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

4.4 异常检测基于分类的检测方法使用正常类的决策边界的思想可以推广处理正常对象可能属于多个类的情况，如模糊聚类。例如，亚马逊接收退回商品。顾客可能因为多种原因（对应类别）而退回商品，如“产品设计缺陷”和“产品运输期间损坏”。每一类都是正常的。为了检测异常点实例，亚马逊可以为每个正常类学习一个模型。为了确定一个实例是否是异常点，可以在该实例上运行各个模型。如果该实例不拟合于任何模型，则它将被视为异常点。基于分类的方法可以和基于聚类的方法联合使用，以半监督的方式检测异常点。 4.4.5 4.4 异常检测基于分类的检测方法示例：通过半监督学习检测异常点。考虑下图，其数据集中对象被标记为“正常”或“异常点”，或者没有标号。使用基于聚类的方法，得到一个大簇C和一个小簇C1。因为C中的某些对象携带了“正常”标号，因此可以把该簇的所有对象（包括没有标号的对象）都看做是正常对象。在异常点检测中，使用这个簇的一类模型来识别异常点。类似地，因为簇C1中的某些对象携带“异常点”标号，因此将C1中的所有对象都视作是异常点。未落入C模型中的其他对象（如a）也将被视为异常点。 4.4.5 4.4 异常检测基于分类的检测方法通过从有标号的样本中学习，基于分类的检测方法可以把专家的领域知识吸纳到检测过程中。构建好分类模型后，异常点检测的过程就很快。只需要将被考察的对象与由训练数据学习得到的模型进行比较，从而来判断其是否是异常点。基于分类的方法的检测质量高度依赖训练集的可利用性和质量。在许多应用中，很难得到高质量的训练数据，这制约了基于分类的方法的应用。 4.4.5 4.4 异常检测高维数据中的异常点检测现实世界中所涉及的数据，特别是在科学领域的应用中，大部分都是高维的。随着维度的增加，对象之间的距离可能会严重地被噪声左右。也就是说，在高维空间中，两点之间的距离或相似度可能并不反映点之间的实际联系。由于高维数据具有不同于低维数据的特殊性质，导致很多常规检测算法的失效，算法效率很低，无法广泛运用和推广。因此，寻找更适合于高维数据的异常检测算法，是一个具有现实意义的课题。理想地，高维数据的异常点检测方法应该应对以下挑战： 4.4.6 4.4 异常检测高维数据中的异常点检测异常点的解释：不仅应该能够检测异常点，而且能够提供对异常点的解释。因为高维数据集涉及许多特征（或维），因此只检测异常点而不提供它们为什么是异常点的解释很难令人信服。异常点的解释可能是，例如，揭示异常点的特定子空间，或者关于对象的异常点性的评估。这种解释可以帮助用户理解异常点的含义和意义。数据的稀疏性：法应该能够处理高维空间的稀疏性。随着维度的增加，对象之间的距离严重地被噪声所左右。因此，高维空间中的数据通常是稀疏的。数据子空间：应该以适当的方式对异常点建模，例如，自适应显示异常点的子空间和捕获数据的局部变化。在所有的子空间上使用固定的距离阈值来检测异常点不是一种好的解决办法，因为两个对象之间的距离会随着维度的增加而单调增加。关于维度的可伸缩性：随着维度的增加，子空间的数量将呈指数增加。包含所有可能的子空间的穷举组合探索不是可伸缩的选择。 4.4.6 4.4 异常检测高维数据中的异常点检测以上挑战概括来讲就是高维数据挖掘应用中一直存在着的两个关键问题，分别是由稀疏数据引起的挖掘性能问题和高维空间中距离函数失效引起的挖掘效果问题。高维数据的异常点检测方法可以划分为三种主要方法，包括扩充的传统异常点检测方法、发现子空间中的异常点和对高维异常点建模。 4.4.6 4.4 异常检测高维数据中的异常点检测（1）扩充的异常点检测方法一种高维数据异常点检测方法是扩充的传统异常点检测方法，是对传统的基于邻近性的异常点模型方法进行扩充而形成的。与传统的邻近性检测方法不同的是，为了克服高维空间中邻近性度量恶化问题，它使用其他度量方法，或构造子空间并在其中检测异常点。扩充的异常点检测方法中的一种典型算法：HilOut算法。算法的基本思路是找出基于距离的异常点，但在异常点检测中使用距离的秩，而不是绝对距离。具体地说，对于每个对象o，HilOut算法找出o的k个最近邻，记作nn1(o),…,nnk(o)，其中k是一个依赖于应用的参数。对象o的权重定义为 4.4.6 所有对象按权重递减序确定秩。权重最高的top-l个对象作为异常点输出，其中l是另一个用户指定的参数。 4.4 异常检测高维数据中的异常点检测计算对象的k最近邻的开销很大，当维度很高且数据集很大时不能伸缩。为了处理可伸缩问题，HilOut算法利用空间充填曲线得到一个近似算法，它跟数