BP神经网络的异常点检测应用研究毕业论文.docVIP

BP神经网络的异常点检测应用研究毕业论文.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
BP神经网络的异常点检测应用研究毕业论文 目 录 1引言 1 1.1背景 1 1.2 传统已有异常点算法介绍 1 1.2.1基于统计学的异常点检测算法 1 1.2.2基于距离的异常点检测算法 2 1.2.3基于密度的算法 3 1.2.4基于偏差的异常点检测 5 1.2.5基于聚类的异常点检测算法 6 2 7 3 BP神经网络介绍 9 3.1模型简介 9 3.2计算各层节点输出 9 3.3 修正权值 10 4 BP神经网络的设计 13 4.1可微阈值单元 13 4.2单个BP网络结构设计 13 4.3BP神经网络学习过程的基本步骤 14 5 17 5.1研究使用的数据库介绍 17 5.2训练方案一实验:把bp神经网络相似性代替距离算法相似度量 17 5.3训练方案二实验:用单个神经网络对训练数据库整体特性进行学习 18 5.4训练方案三实验:多神经网络各种形式训练及其决策 19 5.4.1实验设计思路 19 5.4.2实验方案及步骤 20 5.4.3实验分析 22 5.4.4实验失败原因分析 23 5.5BP调参实验 25 5.5.1对实验一调整隐层实验 25 5.5.2对实验二调整隐层实验 26 5.5.3对实验三调整隐层实验 29 5.6数据仿真实验 31 5.6.1实验思路 31 5.6.2实验步骤 31 5.6.3实验结果 32 5.6.4结果分析 33 5.7实验整体分析 33 35 致谢 39 引言 1.1背景 异常点(离群点或者孤立点)检测是数据挖掘中一个重要方面,Hawkins[1]最早给出了异常点的本质定义:异常点是数据集中与众不同地数据,以至于使人怀疑这些数据并非随机偏差,而是产生与完全不同的机制。异常点可能由于度量或执行错误产生,也可能是由于固有数据可变性的结果。例如,一个公司首席执行官的工资自然远远高于公司其他雇员的工资,成为一个异常点。许多数据挖掘算法试图减少异常点的对挖掘结果的影响,或者在挖掘过程中排除异常点。然而异常点可能隐藏着重要的信息,也许比一般的数据更有价值。因此人们开始逐渐研究异常点挖掘算法。目前异常点检测已经开始用于信用卡欺诈、网络入侵检测以及金融申请和交易欺诈等领域[2],近年来异常点检测已成为数据挖掘研究中的一个热点问题。 传统数据挖掘主要有以下几类:基于统计的方法,基于距离的方法,基于偏移方法,基于聚类方法,基于密度方法。本文从特征与异常检测的关系出发进行研究。BP神经网络适用于储存和描述这种复杂的关系。但是异常检测过程,通常数据的位数较高,在高维特征存在冗余特征干扰,以及高维特征下数据不充分的问题,因此,本文研究了BP神经网络应用于不同情况。 1.2 传统已有异常点算法介绍 1.2.1基于统计学的异常点检测算法 早期的异常点检测算法大多数是基于统计学实现的,通常可以分为基于分布的检测算法和基于深度的检测算法两类。前者一般通过先构造一个标准概率分布来拟合数据集,然后根据概率分布来确定异常点,例如Rosner提出的单样本多个异常检测算法ESD算法,和Yamnishi等使用混合高斯模型的异常点检测算法。此类算法估计多维分布的概率模型的难度较大,且准确性低。基于深度方法主要以计算几何为基础,通过计算不同层的K-D凸包将外层的对象判定为异常点。但当数据集较大,此类方法在维数上的伸缩性不好。 基于统计的异常点检测方法易于理解,实现方便,但此方法检测出来的异常点很可能被不同的分布模型检测出来,解释异常点意义时经常发生多义性。其次,此方法在很大程度上依赖于待挖掘的数据集是否满足某种概率分布模型、模型的参数、异常点的数目等对基于统计的方法都有非常重要的意义,而确定这些参数通常比较困难;另外,此方法大多适合于挖掘单变量的数值型数据,然而许多数据挖掘问题要求在多维空间中发现异常点,目前几乎没有多元的不一致检验,当没有特定的检验时,或观察到的分布不能恰当地用任何标准的分布建模时,此类方法不能确保所有的异常点被发现。 1.2.2基于距离的异常点检测算法 基于距离的异常点检测算法的基本思想是把数据点看作空间中的点,异常点被定义为与大多数数据距离较远的点。通常这类异常被描述为。当且仅当数据集中至少有个数据点与点的距离大于时,数据对象点称为异常点。这类方法与基于密度的检测算法有很大的相似之处,不需要事先知道数据集的分布模型,对于任意分布模型均有效。 基于距离方法最早是由Knorr和Ng在1998年提出的。他们用DB(p,d)来表示数据集中的异常点,采用不同的参数与,可以表示所有的异常点。与此 定 义 相应的算法有三种,它们是基于索引(Index-based)的算法,嵌套循环(Nest-Loop,NL)算法,基于单元或划分(cell-based)的算法等。基于索引的方法依赖多维索引结构(R-trees,X -

文档评论(0)

你好世界 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档