- 4
- 0
- 约1.04万字
- 约 49页
- 2021-08-25 发布于河北
- 举报
序 列 报告人:熊 赟 基本概念 类Apriori生成候选算法 FreeSpan算法,PrefixSpan算法 相似性搜索 其他内容概要6.1 基本概念6.2 原 理6.3 核心算法6.4 其 他第6章 序 列 序列是不同项集的有序排列。 定义1(序列):I={i1i2…im}是项集,ik(1=k=m)是一个项,序列S记为S=s1s2…sn,其中sj(1=j=n)为项集(也称序列S的元素),即sj?I。每个元素由不同项组成。序列的元素可表示为(i1i2…ik),若一个序列只有一个项,则括号可以省略。 序列包含的所有项的个数称为序列的长度。长度为l 的序列记为l -序列。 序 列定义2(子序列):序列T=ti1ti2…tim是另一个序列S=s1s2…sn的子序列,满足下面条件:对于每一个j,1=j=m-1,有ijij+1 且 对于每一个j,1=j=m,存在1=k=n,使得tij?sk。即序列S包含序列T。用符号“?”表示“被包含于”,序列T是序列S的子序列可记为T?S。称T为S的子序列,S为T的超序列。若一个序列S不包含在任何其他的序列之中,则称序列S是最大的。 子 序 列定义3(支持度):序列数据库D是元组sid,S的集合,sid为序列标识号,如果序列T是S的子序列(即T?S)称元组sid,S包含序列T;则序列T在序列数据库D中的支持度是数据库中包含T的元组数,即supportD(T)=|{sid,S|sid,S?D?T?S }|记作support(T)。 序列支持度定义4(频繁序列模式):给定正整数?为支持度阈值,如果数据库中最少有?个元组包含序列S,即support(S)=?,则称序列S为序列数据库D中的一个(频繁)序列模式。长度为l 的序列模式称为l –模式。 序列模式挖掘的任务就是找出数据库中所有的序列模式,即那些在序列集合中出现频率超过最小支持度(用户指定最小支持度阈值)的子序列。 频繁序列模式定义5: (序列关联规则)对于给定的项集I={i1i2…im}以及序列S,T,形如S?T的表达式称为序列关联规则。 序列关联规则序列关联规则S?T的支持度是支持序列S和T的顾客数占总顾客数之比。序列关联规则S?T的置信度记为(?),是支持序列S和T的顾客数与仅支持S的顾客数之比。 支持度置信度 序列关联规则序列模式挖掘阶段 排序阶段 发现频繁项集阶段 转换阶段 序列阶段 最大阶段 交易发生的时间客户标识购买项June 10’04June 12’04June 15’04June 20’04June 25’04June 25’04June 25’04June 30’04June 30’04July 25’042522431144A,BHCD,F,GCC,E,GCHD,GH客户标识交易时间购买项排序阶段11June 25’04June 30’04CH222June 10’04June 15’04June 20’04A,BCD,F,G3June 25’04C,E,G444June 25’04June 30’04July 25’04CD,GH5June 12’04H由客户标识及交易发生的时间为关键字所排序的数据库客户号频繁项集映射客户序列12345(C)(D)(G)(DG)(H)12345 (C) (H) (A,B) (C) (D,F,G) (C,E,G) (C) (D,G) (H) (H) 频繁项集分别是(C)、(D)、(G)、(D,G)和(H)客户序列描述数据库发现频繁项集阶段客户标识原始客户序列转换后客户序列映射后序列转换阶段12345 (C) (H) (A,B) (C) (D,F,G) (C,E,G) (C) (D,G) (H) (H) {(C)}{(H)}{(C)}{(D),(G),(D,G)}{(C),(G)}{(C)}{(D),(G),(D,G)}{(H)}{(H)}{1}{5}{1}{2,3,4}{1,3}{1}{2,3,4}{5}{5}转换后的数据库(客户序列)序列阶段 最大阶段 AprioriAll, AprioriSome算法 FreeSpan,PrefixSpan算法 核心算法 AprioriAll算法 基本思想 客户号客户序列 AprioriAll算法12345{1 5}{2}{3}{4}{1}{3}{4}{3 5}{1}{2}{3}{4}{1}{3}{5}{4}{5} 2-序列1-序列支持度支持度11 24221 3241 43431 544352 3422 423 433 524 52L1L2AprioriAll算法 3-序列4-序列支持度支持度AprioriAll算法 1 2 31 2 3 4221 2 421
您可能关注的文档
- 平衡计分卡概论(PPT24页).pptx
- 平衡计分卡的原理和应用.pptx
- 平衡计分卡的思想与方法.pptx
- 平衡计分卡管理体系建设.ppt
- 平衡计分卡(BSC)经典培训讲义第一部分引入平衡记分卡的战略思考平衡记分卡(ppt96).pptx
- 平衡计分卡经典培训讲义.pptx
- 平衡记分卡的战略思考及案例案例分析.pptx
- 平衡记分卡概述.pptx
- 平衡记分卡在我国企业中的应用.pptx
- 平阳县教师发展中心.pptx
- 2025至2030中国口腔护理和和口腔卫生行业调研及市场前景预测评估报告.docx
- 2025-2026学年广东深圳龙岗区七年级(上)期中考数学试题含答案.docx
- 2026年全球通信芯片行业在数字经济中的发展趋势报告.docx
- 小学生作文提升技巧与范文.docx
- 急性荨麻疹演示ppt课件.pptx
- 2025-2026学年广东深圳红岭中学九年级(上)期中考英语试题含答案.docx
- 2026年档案馆行业服务用户需求报告.docx
- 2025至2030便携式打火机行业市场占有率及投资前景评估规划报告.docx
- 护理教学低血糖查房范文ppt.pptx
- 2026年工业互联网平台数据治理体系建设难点与价值挖掘解决方案.docx
最近下载
- 中小学生端午节假期安全教育主题班会PPT课件.pptx VIP
- 机器人等级考试三四级资料-第01课:初识Mixly和Fduino UNO.pptx VIP
- FULING富凌H200空压机中文说明书说明书用户手册.pdf
- Praat语音软件操作手册.docx VIP
- 2025-2026学年重庆市江津实验中学、田家炳中学、李市中学、白沙中学等金砖六校九年级(上)期末化学模拟试卷(含答案).pdf VIP
- 阿特拉斯•科普柯 冷冻式干燥机.pdf VIP
- 重庆市九龙坡区2024-2025学年九年级上学期期末考试数学试题(含答案与解析).pdf VIP
- 浙江省杭州市富阳区2023-2024学年三年级上学期数学期末试卷.docx VIP
- TXFQC-合成橡胶消防水带.pdf VIP
- 重庆市九龙坡区渝高教育集团2024-2025学年九年级上学期期末考试物理试题(含答案).pdf VIP
原创力文档

文档评论(0)