面向非平衡混合条型数据的分类算法及应用研究-计算机应用技术专业毕业论文.docxVIP

  • 1
  • 0
  • 约5.91万字
  • 约 65页
  • 2019-01-11 发布于福建
  • 举报

面向非平衡混合条型数据的分类算法及应用研究-计算机应用技术专业毕业论文.docx

面向非平衡混合条型数据的分类算法及应用研究-计算机应用技术专业毕业论文

优秀毕业论文 精品参考文献资料 中南大学硕士学位论文摘要 中南大学硕士学位论文 摘要 非平衡混合数据分类处理在现实应用中非常普遍,该数据具有分 布不均匀,属性多样等特性。传统的分类学习方法在处理该类型数据 时有效性不高,而且在少数类样本足够重要时,甚至会导致较大的损 失,因此针对非平衡混合数据的处理方法成为当前国内外数据挖掘研 究的重点之一。 本文的研究工作以传统的分类方法为基础,通过对传统分类算法 的改进,实现对非平衡混合数据的处理。通过分析发现计数最近邻分 类算法(K--nearest Neightbours By Counting,CwkNN)可以有效地对混 合型数据进行分类,但该算法对非平衡性数据处理效果不理想。本文 在CwkNN算法的基础之上结合数据的非平衡性特点提出了三种改进 的分类方法,分别为如下所述: (1)全局密度分类算法:针对CwkNN算法不能处理非平衡型数 据的特点,引入一个全局密度,重新平衡数据对分类的影响度。实验 发现提高了少数类样本的分类精度,降低了多数类样本的分类精度。 (2)K一局部密度分类算法:针对全局密度分类算法降低了多数 类样本的分类精度,引入K一局部密度,保证在提高少数类样本分类 精度的同时,不会降低多数类样本的分类精度,实验证明该方法有效 地提高了非平衡型数据的分类精度。 (3)基于密度的边界点检测及分类算法:针对数据中的边界点, 提出了基于密度的边界点检测方法,并对检测出来的边界点采用边界 点三种分类方法进行分类。实验证明通过这些方法对存在边界点的非 平衡数据可进行正确分类。 关键词计数最近邻分类算法,非平衡数据,全局密度,k一局部密度, 边界点检测 中南大学硕士学位论文ABSTRACT 中南大学硕士学位论文 ABSTRACT The processing of the imbalanced mixed data iS very commom in the real world,Such data are unevenly distributed,and diversity of attributes. The effectiveness of traditional classification learning methods iS not high in dealing with this type of data,and if the minor samples is sufficiently important,it may lead to greater losses.So against non—equilibrium mixed data processing methods have become one of the focal point of the current domestic and international data mining research. The main research work of this Paper is on the basis、of traditional classi fication methods,through improving the traditional methods, achieve non—equilibrium mixed data processing.It was found that k-nearest neightbours by counting can be effective in the mixed data classification by analyzing the algorithm,but the effectiveness of the algorithm are not satisfactory for non—equilibrium data processing.So this paper proposes three improved classi fying methods by combining the characteristics of imbalanced data with Cw㈣algorithm.were as follows: (1)The overall density classification algorithm:Against the characteristics of the Cwl洲algorithm can not handling non.equilibrium data,the introduction of a overall density,re.balancing of data on the impact of

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档