数据挖掘数据冰山立方体计算创新.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘数据冰山立方体计算创新.ppt

主要内容 冰山立方体计算 在很多情况下,数据立方体的空间大多被低度量值的数据单元所占据,而这些数据单元往往是分析者很少关心的内容。冰山立方体的计算能够减少物化数据单元所占有的存储空间。 计算方法 BUC:Bottom-Up Computation Star-Cubing MMCubing, C-Cubing等 计算方式 BUC: Bottom-Up Computation 1999年由Kevin Beyer等在“Bottom-Up Computation of Sparse and Iceberg CUBEs”一文中提出; 一种从顶点立方体逐步向下到基本立方体的计算方法,用于计算稀疏冰山立方体; BUC主要思想: 首先计算整个数据立方体的度量值, 然后沿着每个维度进行划分,同时检查冰山条件,对不满足条件的分枝进行剪枝操作,对满足的在下一个维度进行递归搜索。 BUC计算流程 首先,扫描整个输入,计算整个度量(如总计数); 针对方体的每一维进行划分 ; 针对每一个划分,对它进行聚集,为该划分创建一个元组并得到该元组的计数。判断其分组计数是否满足最小支持度; 如果满足,输出该划分的聚集元组,并在该划分上对下一维进行递归调用,否则进行剪枝操作。 BUC性能分析 BUC算法中采用了分治策略,优点在于能够分担划分开销,减少不必要的计算消耗。 BUC的性能容易受到维的次序以及不平衡数据的影响,应当以维基数的递减顺序进行划分。例 (优化:排序、散列和分组技术) BUC不像多路数组聚集(MultiWay),不能利用父子关系共享聚集计算。 例 思考 Star-Cubing 2003年,由Dong Xin和Jiawei Han等在“Star-Cubing: Computing Iceberg Cubes by Top-Down and Bottom-Up Integration”一文中提出。 一种集成自顶向下和自底向上的立方体计算方法,结合了多路数组聚集中的同时聚集和BUC中的Apriori剪枝策略。 利用星型树数据结构进行存储,其中核心的部分就是引入共享维的概念。如果共享维的聚集值不满足冰山条件,则共享维向下的所有单元都不满足冰山条件。 共享维 共享维 便于共享计算 在ABD/AB中,计算ABD方体时同时计算扩展的方体AB 自顶向下扩展共享维扩展的自底向上计算方式为Apriori剪枝提供条件 如果共享维的聚集值不满足冰山条件,则沿该共享维向下的所有单元也不可能满足冰山条件 方体树 星树 星树 Star-Cubing Star-Cubing Star-Cubing Star-Cubing 节点排序 虽然采用星树结构提供了对原始数据的无损压缩且很好的改善了内存的利用率,但是遍历星树所需的时间开销也很大。 优化:对每一维(层)上的所有节点按字母顺序排序,星节点可以出现在任何位置。 子树剪枝 子树生成的条件有两个:1.当前节点的度量必须满足冰山条件;2.生成的子树必须至少包含一个非星节点。 维排序 Star-Cubing对维的次序是敏感的。 以维基数的递减顺序进行排序。 性能比较(完全立方体) 性能比较(冰山立方体) References 侯东风, 陆昌辉, 刘青宝, 张维明, 数据立方体计算方法研究综述, 计算机科学, 35(10), 2008. K. Beyer, R. Ramakrishnan. Bottom-Up Computation of Sparse and Iceberg CUBEs, SIGMOD, 1999. J. Han, J. Pei, G. Dong, K. Wang. Efficient Computation of Iceberg Cubes With Complex Measures, SIGMOD, 2001. D. Xin, J. Han, X. Li, B. W. Wah. Star-Cubing: Computing Iceberg Cubes by Top-Down and Bottom-Up Integration, VLDB, 2003. D. Xin, J. Han, X. Li, Z. Shao, B. W. Wah. Computing Iceberg Cubes by Top-Down and Bottom-Up Integration: The StarCubing Approach, IEEE Transactions on Knowledge and Data Engineering, 19(1), 2007. a l l A B C A C B C A B C A B D A C D B C D A D B

文档评论(0)

w447750 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档