序列及Apriori生成候选算法.pptxVIP

  • 4
  • 0
  • 约1.04万字
  • 约 49页
  • 2021-08-25 发布于河北
  • 举报
序 列 报告人:熊 赟 基本概念 类Apriori生成候选算法 FreeSpan算法,PrefixSpan算法 相似性搜索 其他内容概要6.1 基本概念6.2 原 理6.3 核心算法6.4 其 他第6章 序 列 序列是不同项集的有序排列。 定义1(序列):I={i1i2…im}是项集,ik(1=k=m)是一个项,序列S记为S=s1s2…sn,其中sj(1=j=n)为项集(也称序列S的元素),即sj?I。每个元素由不同项组成。序列的元素可表示为(i1i2…ik),若一个序列只有一个项,则括号可以省略。 序列包含的所有项的个数称为序列的长度。长度为l 的序列记为l -序列。 序 列定义2(子序列):序列T=ti1ti2…tim是另一个序列S=s1s2…sn的子序列,满足下面条件:对于每一个j,1=j=m-1,有ijij+1 且 对于每一个j,1=j=m,存在1=k=n,使得tij?sk。即序列S包含序列T。用符号“?”表示“被包含于”,序列T是序列S的子序列可记为T?S。称T为S的子序列,S为T的超序列。若一个序列S不包含在任何其他的序列之中,则称序列S是最大的。 子 序 列定义3(支持度):序列数据库D是元组sid,S的集合,sid为序列标识号,如果序列T是S的子序列(即T?S)称元组sid,S包含序列T;则序列T在序列数据库D中的支持度是数据库中包含T的元组数,即supportD(T)=|{sid,S|sid,S?D?T?S }|记作support(T)。 序列支持度定义4(频繁序列模式):给定正整数?为支持度阈值,如果数据库中最少有?个元组包含序列S,即support(S)=?,则称序列S为序列数据库D中的一个(频繁)序列模式。长度为l 的序列模式称为l –模式。 序列模式挖掘的任务就是找出数据库中所有的序列模式,即那些在序列集合中出现频率超过最小支持度(用户指定最小支持度阈值)的子序列。 频繁序列模式定义5: (序列关联规则)对于给定的项集I={i1i2…im}以及序列S,T,形如S?T的表达式称为序列关联规则。 序列关联规则序列关联规则S?T的支持度是支持序列S和T的顾客数占总顾客数之比。序列关联规则S?T的置信度记为(?),是支持序列S和T的顾客数与仅支持S的顾客数之比。 支持度置信度 序列关联规则序列模式挖掘阶段 排序阶段 发现频繁项集阶段 转换阶段 序列阶段 最大阶段 交易发生的时间客户标识购买项June 10’04June 12’04June 15’04June 20’04June 25’04June 25’04June 25’04June 30’04June 30’04July 25’042522431144A,BHCD,F,GCC,E,GCHD,GH客户标识交易时间购买项排序阶段11June 25’04June 30’04CH222June 10’04June 15’04June 20’04A,BCD,F,G3June 25’04C,E,G444June 25’04June 30’04July 25’04CD,GH5June 12’04H由客户标识及交易发生的时间为关键字所排序的数据库客户号频繁项集映射客户序列12345(C)(D)(G)(DG)(H)12345 (C) (H) (A,B) (C) (D,F,G) (C,E,G) (C) (D,G) (H) (H) 频繁项集分别是(C)、(D)、(G)、(D,G)和(H)客户序列描述数据库发现频繁项集阶段客户标识原始客户序列转换后客户序列映射后序列转换阶段12345 (C) (H) (A,B) (C) (D,F,G) (C,E,G) (C) (D,G) (H) (H) {(C)}{(H)}{(C)}{(D),(G),(D,G)}{(C),(G)}{(C)}{(D),(G),(D,G)}{(H)}{(H)}{1}{5}{1}{2,3,4}{1,3}{1}{2,3,4}{5}{5}转换后的数据库(客户序列)序列阶段 最大阶段 AprioriAll, AprioriSome算法 FreeSpan,PrefixSpan算法 核心算法 AprioriAll算法 基本思想 客户号客户序列 AprioriAll算法12345{1 5}{2}{3}{4}{1}{3}{4}{3 5}{1}{2}{3}{4}{1}{3}{5}{4}{5} 2-序列1-序列支持度支持度11 24221 3241 43431 544352 3422 423 433 524 52L1L2AprioriAll算法 3-序列4-序列支持度支持度AprioriAll算法 1 2 31 2 3 4221 2 421

文档评论(0)

1亿VIP精品文档

相关文档