数据挖掘与知识获取课件4、数据立方体计算与数据泛化幻灯片.ppt

数据挖掘与知识获取课件4、数据立方体计算与数据泛化幻灯片.ppt

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
导出泛化的表示 (3) 条形图:表4-5的交叉表销售数据可以使用条形图表示 导出泛化的表示 (4) 饼图:表4-5的交叉表销售数据也可以使用饼图表示 导出泛化的表示 (5) 立方体视图: 用单元的大小代表对应单元的计数,用单元亮度表示单元的另一个度量(如销售额) 上卷、下钻、切片、切块、旋转操作可以点击鼠标,在数据立方体浏览器上进行 导出泛化的表示 (6) 量化规则:带有量化信息的逻辑规则。 使用t_weight作为兴趣度度量,表示广义关系中每个元组的典型性: 量化特征规则 将泛化的结果映射到相应的量化特征规则中,比如: 量化特征规则的每个析取代表一个条件,这些条件的析取形成目标类的必要条件;亦即,如果X在目标类中,则X满足conditioni的概率是wi 挖掘类比较:区分不同的类 类比较挖掘的目标是得到将目标类与对比类相区分的描述。 目标类和对比类之间必须具有可比性,即两者间要有相似的属性或维。 本科生 VS. 研究生;student VS. address 很多应用于概念描述的技巧可以应用于类比较,比如属性泛化。 属性泛化必须在所有比较类上同步进行,将属性泛化到同一抽象层后进行比较。 City VS country 类比较的过程 数据收集 通过查询处理收集数据库中相关数据集,并将其划分为一个目标类和一个或多个对比类 维相关分析 使用属性相关分析方法,使挖掘任务中仅包含强相关的维 同步泛化 同步地在目标类和对比类上进行泛化,得到主目标类关系 和 主对比类关系 导出比较的表示 用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间的比较 (e.g count%(百分计数)) 类比较挖掘——示例(1) 任务 比较Big-University本科生和研究生的一般特征 任务的DMQL描述 use Big_University_DB mine comparison as “grad_vs_undergrad_students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa for “graduate_students” where status in “graduate” versus “undergraduate_students” where status in “undergraduate” analyze count% from student 类比较挖掘——示例(2) 任务的处理过程 Step1——数据收集 DMQL查询转化为关系查询,得到初始目标类工作关系和初始对比类工作关系 可以看成是构造数据立方体的过程 引入一个新维status来标志目标类和对比类(graduate, undergraduate) 其他属性形成剩下的维 例: 初始工作关系:目标类(研究生) 初始工作关系:对比类(本科生) 类比较挖掘——示例(3) 类比较挖掘——示例(4) 任务的处理过程 Step2——在两个数据类上进行维相关分析 删除不相关或者使弱相关的维:name, gender, major, phone# Step3——同步泛化 在目标类和对比类上同步地进行泛化,将相关的维泛化到由用户或领域专家指定的维阈值控制的层,产生主目标类关系 和主对比类关系 类比较挖掘——示例(5) 任务的处理过程 Step4——导出比较的表示 用表、图或规则等形式表达类比较描述的挖掘结果 用户可以在主目标类关系 和主对比类关系中进行OLAP操作(上卷、下钻等),调节最终描述的抽象级 例: 目标类的主广义关系(研究生) 对比类的主广义关系(本科生) 类比较挖掘——示例(6) 类比较描述如何提供? 用可视化的方式将类比较描述呈现给用户,有助于用户对挖掘结果的理解 广义关系 交叉表 柱状图(条形图) 饼图 曲线 量化判别规则 类比较描述的量化判别规则表示(1) 类比较描述中的目标类和对比类的区分特性也可以用量化规则来表示,即量化判别规则 量化判别规则使用d-weight作为兴趣度度量 (特征化使用什么作为兴趣度度量?) qa-广义元组 Cj-目标类 m -目标类和对比类的总数 qa的d-weight是初始目标类工作关系中qa覆盖的元组数 与 初始目标类和对比类工作关系中qa覆盖的总元组数的比 类比较描述的量化判别规则表示(2) 高d-weight的目标类表明广义元组所代表的概念主要从目标类导出 低d-weight表明该概念主要从对比类导出 对给定的status=“Graduate”, Birth_coutry=“Canada”, Age_range=“25-30”, Gpa=“Good” 泛化元组,其d-weight=

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档