浙大数据挖掘数据泛化.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
浙大数据挖掘数据泛化

数据立方体计算与数据泛化 数据泛化 数据泛化 数据库中的数据和对象通常包含原始概念层的细节信息,数据泛化就是将数据库中的跟任务相关的大型数据集从相对较低的概念层抽象到较高的概念层的过程。 主要方法: 数据立方体(OLAP使用的方法) 面向属性的归纳方法 1 2 3 4 5 概念层 (Month, city, customer_group) (Month, *, *) 两种不同类别的数据挖掘 从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘 描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。 E.g. 数据泛化就是一种描述性数据挖掘 预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。 E.g 分类、回归分析等 数据立方体的物化 数据立方体有利于多维数据的联机分析处理 数据立方体使得从不同的角度对数据进行观察成为可能 方体计算(物化)的挑战:海量数据,有限的内存和时间 海量数据运算对大量计算时间和存储空间的要求 数据立方体---基本概念(1) 数据立方体可以被看成是一个方体的格,每个方体用一个group-by表示 最底层的方体ABC是基本方体,包含所有3个维 最顶端的方体(顶点)只包含一个单元的值,泛化程度最高 上卷和下钻操作与数据立方体的对应 P102 图4-1 数据立方体---基本概念(2) 基本方体的单元是基本单元,非基本方体的单元是聚集单元 聚集单元在一个或多个维聚集,每个聚集维用*表示 E.g. (city, *, year, measure) m维方体:(a1,a2,...,an)中有m个不是* 祖先和子孙单元 i-D单元a=(a1,a2,...,an, measuresa)是j-D单元b=(b1,b2,...,bn, measureb)的祖先,当且仅当 (1)ij,并且 (2)对于1≤m ≤ n,只要am ≠ *就有am=bm 冰山立方体 (1) 为了确保快速的联机分析,有时希望预计算整个立方体(所有方体的所有单元) n维数据立方体包含2n个方体 如果考虑概念分层 部分物化是存储空间和响应时间的折中方案 事实上,很多高维方体都是稀疏的(包含很多度量值为0的单元) 冰山立方体 (2) 对于稀疏的数据立方体,我们往往通过指定一个最小支持度阈值(也称冰山条件),来进行部分物化,这种部分物化的方体称之为冰山方体。比如: COMPUTE CUBE Sales_Iceberg AS SELECT month, city, cust_grp, COUNT(*) FROM Sales_Info CUBE BY month, city, cust_grp HAVING COUNT(*) = min_sup 闭立方体 (1) 冰山方体的计算通过冰山条件(例:HAVING COUNT(*) = min_sup)来减轻计算数据立方体中不重要的聚集单元的负担,然而仍有大量不感兴趣的单元需要计算 比如:最小支持度为10,假定100维的数据立方体有两个基本方体:{(a1,a2,a3,…,a100):10, (a1,a2,b3,…,b100):10},假设冰山条件为最小支持度10 则需计算和存储的单元仍是海量:2101-6个 如:(a1,a2,a3,…,a99,*):10, (a1,*,a3,…,a100):10 闭立方体 (2) 闭单元 一个单元c是闭单元,如果单元c不存在一个跟c有着相同度量值的后代d 例如:上述例子中,任何一个(a1,a2,a3,*,*,…,*):10,都和他的后代有相同度量值 闭立方体:一个仅有闭单元组成的数据立方体 例如: (a1,a2,*,*,…,*):20 (a1,a2,a3,…, a100):10 (a1,a2,b3,…, b100):10 立方体外壳 部分物化的另外一种策略:仅预计算涉及少数维的方体(比如3到5维),这些立方体形成对应数据立方体的外壳 利用外壳对其他的维组合查询进行快速计算 仍将导致大量方体(n很大时),类似的我们可以利用方体的兴趣度,选择只预计算立方体外壳的部分 立方体计算的一般策略 (1) 一般,有两种基本结构用于存储方体 关系OLAP(ROLAP) 底层使用关系模型存储数据 多维OLAP(MOLAP) 底层使用多维数组存储数据 无论使用哪种存储方法,都可以使用以下立方体计算的一般优化技术 优化技术1:排序、散列和分组 将排序、散列(hashing)和分组操作应用于维的属性,以便对相关元组重新排序和聚类 立方体计算的一般策略 (2) 优化技术2:同时聚集和缓存中间结果 由先前计算的较低层聚集来计算较高层聚集,而非从基本方体开始计算,减少I/O 优化方法3:当存在多个子女时,由最小的子女聚集 例如,计算Cbranch,可以利用C(branch, y

文档评论(0)

docman126 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档