一种高效的基于位图序列模式挖掘算法!
高技术通讯* % 年 第* 卷 第* 期:%(( V %()! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !
! #$ :% ’ ())*+ , ’ $--.’ %*/0) ’ *% ’ * ’ 1
一种高效的基于位图序列模式挖掘算法!
! # !!! ! !!
张长海 ! 胡孔法 ! 陈! ! ! 宋爱波
!
(扬州大学信息工程学院! 扬州**12 )
!!
( 东南大学计算机科学与工程学院! 南京*%23 )
摘! 要! 为实现在大型事务数据库中挖掘有价值的序列数据,提出了一种基于位图的高
效的序列模式挖掘算法(4567 )。4567 算法采用位图表示数据库的方法,提出一种简化
的位图表示结构。该算法首先由序列扩展和项扩展产生候选序列,然后通过原序列位图
和被扩展项位图位置快速运算生成频繁序列。实验表明,应用于大型事务数据库,该方法
不仅能有效地提高挖掘效率,而且挖掘处理过程中产生的临时数据所需的内存大大降低,
能够高效地挖掘序列模式。
关键词! 数据挖掘,序列模式,位图
项集作为“集成块”,在挖掘 @ 大序列时重用大项
! 引言 集,并以兄弟节点为种子生成候选大序列,利用
%-A—QR8 对支持度进行快速计数,高效地生成频繁
在大型事务数据库中寻找序列模式是数据挖掘 序列模式。4H:5 算法和OP45 算法通过位图计数
的重要课题,对大型事务数据库中有价值序列数据 技术在挖掘时间上有显著优势,但是这种优势是建
的挖掘有着广泛的应用前景,例如可用于顾客购买 立在有足够大的可用内存的基础上的。为此,本文
行为分析、网络访问模式分析、科学实验分析、疾病 提出了一种改进的基于位图的序列模式挖掘算法
治疗早期诊断、自然灾害预测、 (
89: 序列模式分析 -CEFC.A$=? B=AAC. S$.$.; T=-C #. T$AS=B CBC-C.A=/
等。这类问题首先由:;==? 和4$@=.A 两人提出, A$#. ,4567 ),该算法提高了挖掘效率,降低了时间
他们总结了序列模式的定义,提出了一种基于:B$/ 复杂度,同时挖掘处理过程中产生的临时数据所需
#$ 的改进算法———泛化序列模式(;C.C=?$DC -C/ 的内存大大降低,能够有效地挖掘序列模式。
[%]
EFC.A$=? B=AAC.- ,G4H )算法 。后来,研究人员提出
了挖掘频繁序列片段[* ]的问题及多种挖掘算法,如 %! 基本知识和概念
[( ]
基于规则表达式约束 的挖掘,基于垂直格式存储的
[0 ]
序列模式挖掘算法———4H:8I 算法 ,基于投影的 设! {# ,# ,…,# }是一个项目集合,项目
% * $
模式增
您可能关注的文档
最近下载
- 关节置换课件.pptx VIP
- 脉冲微分方程边值问题解的存在性:理论与应用新探.docx VIP
- 2025高考物理步步高同步练习必修3第十章电势差与电场强度的关系含答案.docx VIP
- 人教版高中数学必修一章节思维导图全套.pdf VIP
- 深度解析(2026)《GAT 147-2019法医学 尸体检验技术总则》.pptx VIP
- 变分法研究几类分数阶脉冲微分方分程边值问题解的存在性.docx VIP
- 《中小学生欺凌防治制度机制指引》全文.pdf VIP
- 普通话水平考必试读词语表.doc VIP
- 汽车租赁合同模板范本.docx VIP
- 2025高考物理步步高同步练习选修1第一章 动量专题强化3 弹簧—小球模型 滑块—光滑斜(曲)面模型含答案.docx VIP
原创力文档

文档评论(0)