- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
离群检测及其优化算法研究⑧
离群检测及其优化算法研究
⑧
重庆大学博士学位论文
学生姓名:杨鹏 指导教师:朱庆生教授 专 业:计算机科学与技术 学科门类:工学
重庆大学计算机学院
二O—O年十月
Research
Research on Outlier Detection and its
Optimal Algorith ms
⑧
A Thesis Submitted to Chongqing University
in Partial Fulfillment of the Requirement for the
Degree of Doctorof Engineering
By Yang Peng
Supervised by Prof.Zhu Qingsheng
Maj or:Computer Science of Technology
College of Computer Science of Chongqing University,Chongqing,China October 2010
中文摘要摘
中文摘要
摘 要
在数据集中,离群点是指那些相对于大量常规数据异常孤立的数据模式。在 很多情况下离群点被认为是噪声而抛弃,但在实际应用中我们发现一些包含重要 信息的数据往往就是离群点。离群检测就是利用统计学,机器学习,智能计算, 可视化等多种技术来发现数据集中的离群点,供用户进行分析和处理。
由于离群点可能蕴含重要知识,离群检测在预防电信和信用卡欺诈,医疗保 险,市场分析,气象预测等领域有广泛的应用,相关研究将具有重要的学术和现 实意义。然而面对日益复杂的大型高维数据集,如何迅速有效地发现并处理异常 行为是一个具有挑战性的问题。
本文尝试将聚类与分类方法用于发现数据集中的异常对象,同时研究离群检 测相关的优化算法。我们提出了基于谱聚类以及RBF人工神经网络的离群检测方 法,针对高维数据集定义了关键离群属性子集的概念并实现了属性约简来优化离 群检测。主要工作和成果如下:
①对谱聚类基本原理和典型算法做了较为全面的分析和研究,利用谱聚类的 特性实现了在复杂数据集上的聚类。提出了一种改进的基于随机行走的谱聚类算 法,该算法引入了密度敏感的距离量度来更精确地计算对象之间的相似性,并且 通过计算随机矩阵相关特征值来自动确定数据集的最优聚类数。利用该算法获得 的稳定聚类,是有效完成离群检测的前提。
②首次将谱聚类用于离群检测,并通过定义扩展的多路剪切和分段常数特征 向量证明了其可行性。提出了一种基于谱聚类的离群检测算法,该算法首先对数 据集进行聚类,然后计算所有聚类中对象的离群因子并根据该值来确定离群点。 在谱聚类过程中,利用共享邻居的邻接矩阵构造方法来获得较为稀疏的邻接矩阵, 其特征向量可以用Lanczos算法来快速求解。
⑨利用RBF人工神经网络来构造离群检测模型,该模型使用减法聚类来有效 选择隐节点中心,同时获得更快的训练速度。网络训练过程中,在传统误差函数 中加入了一个调整项,旨在消除隐层节点的波动。为每个输入样本定义离群度, 在网络输出结果确定的情况下,可以根据离群度判断那些实际输出严重偏离其期 望的样本为离群点。
④针对在大型高维数据集中发现离群点效率不高的问题,我frill入粗糙集相 关概念并提出了基于属性约简的离群检测方法。如果在某属性子集上得出的离群 划分与在全属性集上得出的离群划分足够相似,则对于这样的数据集,可以直接 在这些属性子集(即关键离群属性子集)上进行离群检测。此外,提出了高效的
重庆大学博士学位论文关键离群属性子集的查找方法,并通过实验验证了其有效性。
重庆大学博士学位论文
关键离群属性子集的查找方法,并通过实验验证了其有效性。 关键词:离群检测,谱聚类,人工神经网络,离群约简,高维数据集
Ⅱ
英文摘要ABSTRACT
英文摘要
ABSTRACT
An outlier in dataset is all observation or data pattem which is considerably dissimilar or inconsistent with the remainder of the data.In most cases,outliers are abandoned due to be considered as noise.Obj ects including important information, however,are outliers found in some real-life applications.Outlier detection aims to find outliers in dataset by utilizing statistics,machi
您可能关注的文档
- 利用RNA介导的病毒抗性培育双抗病毒转基因植株-植物病理学专业毕业论文.docx
- 李迪《枫鹰雉鸡图》考-美术学(中国画花鸟)专业毕业论文.docx
- 卢照邻及其诗歌研究-古代文学专业毕业论文.docx
- 矿产资源开发的不确定因素评价方法及其应用研究-安全技术及工程专业毕业论文.docx
- 卢照邻及其诗歌分析-中国古代文学专业毕业论文.docx
- 硫族纳米材料的水热合成及表征-物理化学专业毕业论文.docx
- 论《河南手机报》大学生受众市场开发-新闻学专业毕业论文.docx
- 扩散机制下的异质外延薄膜和弹性导电体的形态失稳及演化-固体力学专业毕业论文.docx
- 两囚禁离子的量子运动-原子与分子物理专业毕业论文.docx
- 山西右玉宝宁寺明代水陆画图像艺术研究-美术学专业毕业论文.docx
- 廊坊市区土地定级和基准地价研究-工业工程专业毕业论文.docx
- 廊坊市区土地定级和基准地价分析-工业工程专业毕业论文.docx
- 论乡镇企业的资本经营研究-产业经济学专业毕业论文.docx
- 磷酸铈基催化剂的零价汞催化氧化研究-环境工程专业毕业论文.docx
- 论乡镇企业的资本经营-产业经济学专业毕业论文.docx
- 快速城镇化背景下滨海城市空间结构演化及防灾策略研究-城乡规划学专业毕业论文.docx
- 凌叔华与京派关系研究-中国现当代文学专业毕业论文.docx
- 两个水稻早衰突变体基因的精细定位-作物专业毕业论文.docx
- 论中国外商投资股份有限公司市场准入制度-国际贸易学专业毕业论文.docx
- 十字花科芽苗中硫代葡萄糖苷及其水解产物的研究-化学工程与技术专业毕业论文.docx
最近下载
- 中国历史大辞典.pptx VIP
- 古诗词诵读《无衣》课件(共25张PPT)2025-2026学年统编版高中语文选择性必修上册.pptx VIP
- 古诗词诵读《无衣》课件(共23张PPT)2025-2026学年统编版高中语文选择性必修上册.pptx VIP
- 《入党申请书》和《入党志愿书》.docx VIP
- 高频电刀使用评分标准.docx VIP
- 湘教版(2024新版)七年级上册地理期末复习必背知识提纲.pdf VIP
- 拱桥支架施工方案.doc VIP
- 初三上册二次函数试卷(带答案).doc VIP
- 07-法律职业伦理-0409003607-教学大纲.pdf VIP
- 六年级英语上册测试卷含答案 .pdf VIP
文档评论(0)