基于虚构理论对不平衡数据集中少数类关联规则挖掘的-云南大学学报.PDFVIP

  • 2
  • 0
  • 约2.91万字
  • 约 6页
  • 2018-02-19 发布于天津
  • 举报

基于虚构理论对不平衡数据集中少数类关联规则挖掘的-云南大学学报.PDF

基于虚构理论对不平衡数据集中少数类关联规则挖掘的-云南大学学报

云南大学学报(自然科学版),2017,39(1):33~38 DOI:10.7540/j.ynu Journal of Yunnan University 基于虚构理论对不平衡数据集中 少数类关联规则挖掘的研究∗ 刘  云,向  婵 (昆明理工大学 信息工程与自动化学院,云南 昆明  650500) 摘要:在网络入侵检测系统中,数据挖掘往往面对的是不平衡数据集,而对不平衡数据集中少数类的挖掘 是现在研究的热点.针对不平衡数据集中少数类的挖掘问题,提出了不平衡库关联规则挖掘算法(ARUD).算法 首先构造一个知识联接强度矩阵,用来存储所有二项集的支持度计数,然后基于该矩阵挖掘满足最小说服度的 所有关联规则,且ARUD算法仅需扫描整个事务数据库 1次.采用了UCI数据库中4个典型的不平衡数据集, - 对比Apriori算法与CFP Growth算法,ARUD算法能有效提取不平衡数据集中的少数类,并在数据挖掘运行时 间和占用内存方面均有性能提升. 关键词:不平衡数据集;少数类;关联规则;说服度 - - - 中图分类号:TP 311    文献标志码:A    文章编号:0258 7971(2017)01 033 06 [12]     在网络入侵等诸多应用中,广泛存在着对不平 库2次,运行时间较长.章志刚等 也提出了一种 [1] - 衡数据集的挖掘 .在不平衡数据集里,数据样本 基于FP Growth 的频繁项目集并行挖掘算法,该算 分布在不同的类中,且各类所包含的数据样本数量 法基于Map/ Reduce并行模型,在每个计算节点上 往往差异较大.数据样本数量占比例较多的类通常 构造局部频繁模式树,提高了算法效率,但对少数 称之为多数类,而拥有少量数据样本的类被称之为 类的挖掘并不高效.虽然这些改进型的算法在一定 少数类或稀有类,少数类往往是人们关注的重要事 程度上提高了挖掘效率,但是并不适用不平衡数据 - [2 4] 件 .对不平衡数据库中的少数类的快速挖掘和 集中的少数类的快速挖掘. - [5 7] 分类问题是现在数据挖掘领域的热点 .传统的 与上述算法相比,神经网络则具有快速计算能 - Apriori算法使用支持度及置信度的框架来衡量关 力和高性能,Hecht Nielsen 提出了一种在一个简 联规则的强度,选择较高的支持度则会错失许多有 单的计算模型中人类认知的符号机制,被称作虚构 [13] 趣规则,选择较小的支持度则会生成太多无趣规 理论 .在该模型中所有领域知识都

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档