离群检测及其优化算法研究-计算机科学与技术专业毕业论文.docx

离群检测及其优化算法研究-计算机科学与技术专业毕业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
离群检测及其优化算法研究⑧ 离群检测及其优化算法研究 ⑧ 重庆大学博士学位论文 学生姓名:杨鹏 指导教师:朱庆生教授 专 业:计算机科学与技术 学科门类:工学 重庆大学计算机学院 二O—O年十月 Research Research on Outlier Detection and its Optimal Algorith ms ⑧ A Thesis Submitted to Chongqing University in Partial Fulfillment of the Requirement for the Degree of Doctorof Engineering By Yang Peng Supervised by Prof.Zhu Qingsheng Maj or:Computer Science of Technology College of Computer Science of Chongqing University,Chongqing,China October 2010 中文摘要摘 中文摘要 摘 要 在数据集中,离群点是指那些相对于大量常规数据异常孤立的数据模式。在 很多情况下离群点被认为是噪声而抛弃,但在实际应用中我们发现一些包含重要 信息的数据往往就是离群点。离群检测就是利用统计学,机器学习,智能计算, 可视化等多种技术来发现数据集中的离群点,供用户进行分析和处理。 由于离群点可能蕴含重要知识,离群检测在预防电信和信用卡欺诈,医疗保 险,市场分析,气象预测等领域有广泛的应用,相关研究将具有重要的学术和现 实意义。然而面对日益复杂的大型高维数据集,如何迅速有效地发现并处理异常 行为是一个具有挑战性的问题。 本文尝试将聚类与分类方法用于发现数据集中的异常对象,同时研究离群检 测相关的优化算法。我们提出了基于谱聚类以及RBF人工神经网络的离群检测方 法,针对高维数据集定义了关键离群属性子集的概念并实现了属性约简来优化离 群检测。主要工作和成果如下: ①对谱聚类基本原理和典型算法做了较为全面的分析和研究,利用谱聚类的 特性实现了在复杂数据集上的聚类。提出了一种改进的基于随机行走的谱聚类算 法,该算法引入了密度敏感的距离量度来更精确地计算对象之间的相似性,并且 通过计算随机矩阵相关特征值来自动确定数据集的最优聚类数。利用该算法获得 的稳定聚类,是有效完成离群检测的前提。 ②首次将谱聚类用于离群检测,并通过定义扩展的多路剪切和分段常数特征 向量证明了其可行性。提出了一种基于谱聚类的离群检测算法,该算法首先对数 据集进行聚类,然后计算所有聚类中对象的离群因子并根据该值来确定离群点。 在谱聚类过程中,利用共享邻居的邻接矩阵构造方法来获得较为稀疏的邻接矩阵, 其特征向量可以用Lanczos算法来快速求解。 ⑨利用RBF人工神经网络来构造离群检测模型,该模型使用减法聚类来有效 选择隐节点中心,同时获得更快的训练速度。网络训练过程中,在传统误差函数 中加入了一个调整项,旨在消除隐层节点的波动。为每个输入样本定义离群度, 在网络输出结果确定的情况下,可以根据离群度判断那些实际输出严重偏离其期 望的样本为离群点。 ④针对在大型高维数据集中发现离群点效率不高的问题,我frill入粗糙集相 关概念并提出了基于属性约简的离群检测方法。如果在某属性子集上得出的离群 划分与在全属性集上得出的离群划分足够相似,则对于这样的数据集,可以直接 在这些属性子集(即关键离群属性子集)上进行离群检测。此外,提出了高效的 重庆大学博士学位论文关键离群属性子集的查找方法,并通过实验验证了其有效性。 重庆大学博士学位论文 关键离群属性子集的查找方法,并通过实验验证了其有效性。 关键词:离群检测,谱聚类,人工神经网络,离群约简,高维数据集 Ⅱ 英文摘要ABSTRACT 英文摘要 ABSTRACT An outlier in dataset is all observation or data pattem which is considerably dissimilar or inconsistent with the remainder of the data.In most cases,outliers are abandoned due to be considered as noise.Obj ects including important information, however,are outliers found in some real-life applications.Outlier detection aims to find outliers in dataset by utilizing statistics,machi

您可能关注的文档

文档评论(0)

jianzhongdahong + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档