基于判别分析原理离群点检测算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于判别分析原理离群点检测算法

基于判别分析原理离群点检测算法   摘要:信息技术进入了数据时代,多属性高维数据广泛存在很多数据集中。基于判别分析的离群点检测算法是一种新的离群点挖掘的思路,通过一个数据实例验证该算法可以检测数据之中的异常数据。   关键词:离群;判别分析;检测算法   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)03-0090-02   Discriminate Analysis Based Outlier Detection Algorithm   JIAN Shu-fen1, HOU Tian-zi2   (1.Sichuan Police College,Luzhou 646000,China;2. The Procuratorate of Wuhou, Chengdu 610000,China)   Abstract:Information technology has entered a data era.Discriminate Analysis based outlier detection algorithm is a new outlier detection way,and the algorithm is proved that it can find out outlier in data by a instance.   Key words: outlier; discriminate analysis; detection algorithm   1 判别分析在基于离群点挖掘时的可行性   1.1判别分析方法的定义   有一种方法可以辨别所属的类别,这种方法是判别分析。其有着潜在的应用方面,比如说在预测新产品的成功率上,或者确定该学生能否被录用等方面。一般存在某种关系,如某个被解释的定性变量和定量的解释变量,判别分析方法比较适合。   判别分析方法是应用性很强的一种多元统计方法,判别分析方法对问题求解可以这样描述:假设存在n个k维总体[G1,G2,...,Gk],分布函数或特征已知,(若已知的分布函数分别是[F1(x),F2(x),...,Fk(x)]分布函数或特征已知),对于给定一个新的样本x,要分析出样本出自哪个总体。   1.2判别分析方法与分类的异同   判别分析与数据挖掘中的分类技术并不等同。分类与判别分析目的都是出于给数据分类的目的,在这上面是相似的。   判别分析方法是数学统计中一种方法,需要严谨的逻辑推理来推导每个步骤,这与分类有所不同。分类是挖掘中的广泛应用的技术之一,如决策树、贝叶斯等,需构造分类器或模型来预测类属标号/。其中,只有贝叶斯分类也同时应用在统计学中。   1.3判别分析应用于离群点挖掘   离群点数据由绝大多数的正常数据和少数的异常数据组成,将判别分析缩减优化,优化到两个总体,将一个新样品x设定,通过推算得出它属于其中某个总体,如果判定结果是异常数据表示的总体,那么就可以判定某个样品是离群点,否则就属于正常数据的样品。这种离群点判别分析算法的优点在于它的动态性好。当新来品种,就可以很快分析出数据所属类别。   这种判别方法,类似贝叶斯分类法:利用贝叶斯原理构造出贝叶斯分类器,将费歇(Fisher)判别运用到离群点数据挖掘,用这种判定分析,进行离群点检测。   2 判别分析方法步骤   对判别分析方法的实现可分5个步进行。   第1步:检测判别分析对象   第1步:检测对象在提前分好的小组中的差异点,对获取进行分类。在这些变量中,分析判别差异时,观察其中解释较多的数据,这些数据对判定样品类别时起的作用比较大的。   第2步:判别分析设计   对解释变量和被解释变量,用判别分析加以摘选出来,设为定性变量。由于在判别分析中,对样本量与预测变量的个数的比率是敏感的,因此也需要考虑到样本的容量大小。   第3步:假定判别分析   在推算出判别分析函数前,首先假定解释变量的正态性,协方差阵相等,这样可以确保之后的计算满足条件。   第4步:判别模型估计与整体拟合评估   选择估计方法,推算判别分析函数,并找出其中的差异性,确定函数的有效性。   第5步:解释结论并验证   判别分析里有距离判别、贝叶斯判别、费歇判别等都是判别分析中的分析方法,判别方法不同,临界条件也不同。判别分析不仅对所判别的数据有成效,在另一方面也能够对已经的分类数据进行回判,从而验证数据的真实性。   关于判别分析的具体性质,详细的数学推导过程与证明可参见文献[1]。   3 费歇判别   在费歇判别中,投影是该判别方法的基本思想,假设k组p维数据向指定的一个方向投影,k个分组得到的投影分别放在k个不同地方,尽可能的缩

您可能关注的文档

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档