商务数据分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
例子:设序列数据库如下表所示,并设用户指定的最小支持度min-support = 2。 Sequence_id Sequence 10 a(abc)(ac)d(cf) 20 (ad)c(bc)(ae) 30 (ef)(ab)(df)cb 40 eg(af)cbc 序列a(bc)df是序列a(abc)(ac)d(cf)的子序列 序列(ab)c是长度为3的序列模式 序列模式分析 问题描述:给定序列数据库和最小支持度阈值,序列模式挖掘就是要找出序列数据库中所有的序列模式。 系统规定:由于同一个元素中的项目之间排列没有顺序,为了表达的唯一性,将同一个元素内部的不同项目按照字典顺序排列。 序列模式分析 GSP算法 扫描序列数据库,得到长度为1的序列模式L1,作为初始的种子集。 根据长度为i 的种子集Li 通过连接操作和剪切操作生成长度为i+1的候选序列模式Ci+1;然后扫描序列数据库,计算每个候选序列模式的支持数,产生长度为i+1的序列模式Li+1,并将Li+1作为新的种子集。 重复第二步,直到没有新的序列模式或新的候选序列模式产生为止 L1? C2 ? L2 ? C3 ? L3 ? C4 ? L4 ? …… 序列模式分析 候选序列模式步骤 连接阶段:如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同,则可以将s1与s2进行连接,即将s2的最后一个项目添加到s1中。 剪切阶段:若某候选序列模式的某个子序列不是序列模式,则此候选序列模式不可能是序列模式,将它从候选序列模式中删除。 L1? C2 ? L2 ? C3 ? L3 ? C4 ? L4 ? …… 序列模式分析 下表演示了如何从长度为3的序列模式产生长度为4的候选序列模式。 Sequential patterns With length 3 Candidate 4-Sequences After Join After Pruning (1,2) 3 (1,2) (3,4) (1,2) (3,4) (1,2) 4 (1,2) 3 5 1 (3,4) (1,3) 5 2 (3,4) 2 3 5 序列模式分析 对于给定的候选序列模式集合C,扫描序列数据库,对于其中的每一条序列d,找出集合C中被d所包含的所有候选序列模式,并增加其支持度计数。 L1? C2 ? L2 ? C3 ? L3 ? …… 候选序列模式的支持度 序列模式分析 * 产生候选序列模式 原始序列 序列模式 连接结果 1,2,3,4 {1,5},2,3,4 1,3,4,{3,5} 1,3,5 4,5 1,2,3 1,2,3,4 1,2,4 1,3,4 1,3,5 2,3,4 序列 支持度 1 0.8 2 0.4 3 0.8 4 0.8 5 0.8 大于1的序列模式 1,2 0.4 1,3 0.8 1,4 0.6 1,5 0.4 2,3 0.4 2,4 0.4 3,4 0.6 4,5 0.4 大于2的序列模式 1,2,3 0.4 1,2,4 0.4 1,3,4 0.6 1,3,5 0.4 2,3,4 0.4 大于3的序列模式 1,2,3,4 0.4 序列模式分析 顾客购物序列模式挖掘 事务数据 事务发生的时间 顾客ID 购买项集 2004.12.10 2 10,20 2004.12.12 5 90 2004.12.15 2 30 2004.12.20 2 40,60,70 2004.12.25 4 30 2004.12.25 3 30,50,70 2004.12.25 1 30 2004.12.30 1 90 2004.12.30 4 40,70 2004.12.31 4 90 顾客购物序列库 顾客标识 顾客购物序列 1 30,90 2 {10,20},30,{40,60,70} 3 {30,50,70} 4 30,{40,70},90 5 90 设最小支持度为25%,从表可以看出30,90是30,{40,70},90的子序列。两个序列30,90、30,{40,70}的支持度为40%,因此是序列模式。 序列模式分析 GSP算法的主要问题 缺少时间限制:用户可能需要指定序列模式的相邻元素之间的时间间隔。例如,一个序列模式可能会发现客户在购买了物品A后的第三年购买物品B。需要的却是给定时间间隔内用户的购买意向。 事务的定义过于严格:一个事务中包含在客户的一次购买行为中所购买的所有物品。可能需要指定一个滑动时间窗口,客户在滑动时间窗口的时间段内的所有的购买行为均作为一个事务。 缺少分类层次:只能在项目的原始级别上进行挖掘。 序列模式分析 应用领域: 客户购买行为模式预测 Web访问模式预测 疾病诊断 自然灾害预测 DNA序列分析 序列模式分析 应用案例1:客户购买行为模式分析 B2C电子商务网站可以根

文档评论(0)

jyr0221 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档