一种高效的基于位图序列模式挖掘算法!.PDF

一种高效的基于位图序列模式挖掘算法!.PDF

一种高效的基于位图序列模式挖掘算法!

高技术通讯* % 年 第* 卷 第* 期:%(( V %()! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! #$ :% ’ ())*+ , ’ $--.’ %*/0) ’ *% ’ * ’ 1 一种高效的基于位图序列模式挖掘算法! ! # !!! ! !! 张长海 ! 胡孔法 ! 陈! ! ! 宋爱波 ! (扬州大学信息工程学院! 扬州**12 ) !! ( 东南大学计算机科学与工程学院! 南京*%23 ) 摘! 要! 为实现在大型事务数据库中挖掘有价值的序列数据,提出了一种基于位图的高 效的序列模式挖掘算法(4567 )。4567 算法采用位图表示数据库的方法,提出一种简化 的位图表示结构。该算法首先由序列扩展和项扩展产生候选序列,然后通过原序列位图 和被扩展项位图位置快速运算生成频繁序列。实验表明,应用于大型事务数据库,该方法 不仅能有效地提高挖掘效率,而且挖掘处理过程中产生的临时数据所需的内存大大降低, 能够高效地挖掘序列模式。 关键词! 数据挖掘,序列模式,位图 项集作为“集成块”,在挖掘 @ 大序列时重用大项 ! 引言 集,并以兄弟节点为种子生成候选大序列,利用 %-A—QR8 对支持度进行快速计数,高效地生成频繁 在大型事务数据库中寻找序列模式是数据挖掘 序列模式。4H:5 算法和OP45 算法通过位图计数 的重要课题,对大型事务数据库中有价值序列数据 技术在挖掘时间上有显著优势,但是这种优势是建 的挖掘有着广泛的应用前景,例如可用于顾客购买 立在有足够大的可用内存的基础上的。为此,本文 行为分析、网络访问模式分析、科学实验分析、疾病 提出了一种改进的基于位图的序列模式挖掘算法 治疗早期诊断、自然灾害预测、 ( 89: 序列模式分析 -CEFC.A$=? B=AAC. S$.$.; T=-C #. T$AS=B CBC-C.A=/ 等。这类问题首先由:;==? 和4$@=.A 两人提出, A$#. ,4567 ),该算法提高了挖掘效率,降低了时间 他们总结了序列模式的定义,提出了一种基于:B$/ 复杂度,同时挖掘处理过程中产生的临时数据所需 #$ 的改进算法———泛化序列模式(;C.C=?$DC -C/ 的内存大大降低,能够有效地挖掘序列模式。 [%] EFC.A$=? B=AAC.- ,G4H )算法 。后来,研究人员提出 了挖掘频繁序列片段[* ]的问题及多种挖掘算法,如 %! 基本知识和概念 [( ] 基于规则表达式约束 的挖掘,基于垂直格式存储的 [0 ] 序列模式挖掘算法———4H:8I 算法 ,基于投影的 设! {# ,# ,…,# }是一个项目集合,项目 % * $ 模式增

文档评论(0)

1亿VIP精品文档

相关文档