- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5555 数据挖掘概念与技术原书第2版第4章_数据立方体计算与数据泛化体
一种面向关系数据查询的、基于汇总的在线数据分析技术。 受数据类型和度量类型的约束比较少 面向属性归纳的基本思想: 使用关系数据库查询收集任务相关的数据 通过考察任务相关数据中每个属性的不同值的个数进行泛化,方法是属性删除或者是属性泛化 通过合并相等的,泛化的广义元组,并累计他们对应的计数值进行聚集操作 通过与用户交互,将广义关系以图表或规则等形式,提交给用户 目的是获得跟任务相关的数据集,包括属性或维,在DMQL中他们由in relevance to子句表示。 示例: DMQL: 描述Big-University数据库中研究生的一般特征 use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate” 上述DMQL查询转换为如下SQL查询,收集任务相关数据集 Select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in {Msc, M.A., MBA, PhD} 初始工作关系 数据泛化的两种常用方法:属性删除和属性泛化 属性删除的适用规则:对初始工作关系中具有大量不同值的属性,符合以下情况,应使用属性删除: 在此属性上没有泛化操作符(比如该属性没有定义相关的概念分层) 该属性的较高层概念用其他属性表示 属性泛化的使用规则:如果初始工作关系中的某个属性具有大量不同值,且该属性上存在泛化操作符,则使用该泛化操作符对该属性进行数据泛化操作 确定什么是“具有大量的不同值”,控制将属性泛化到多高的抽象层。 属性泛化控制的两种常用方法: 属性泛化阈值控制 对所有属性设置一个泛化阈值或者是对每个属性都设置一个阈值(一般为2到8) 泛化关系阈值控制 为泛化关系设置一个阈值,确定泛化关系中,不同元组的个数的最大值。(通常为10到30,允许在实际应用中进行调整) 两种技术的顺序使用:使用属性泛化阈值控制来泛化每个属性,然后使用关系阈值控制进一步压缩泛化的关系 在归纳过程中,需要在不同的抽象层得到数据的量化信息或统计信息 聚集值计算过程 聚集函数count与每个数据库元组相关联, 初始工作关系的每个元组的值初始化为1 通过属性删除和属性泛化,初始工作关系中的元组可能被泛化,导致相等的元组分组 新的相等的元组分组的计数值设为初始工作关系中相应元组的计数和 e.g. 52个初始工作关系中的元组泛化为一个新的元组T,则T的计数设置为52 还可以应用其他聚集函数,包括sum,avg等 挖掘BigUniversity数据库中研究生的一般特征 name:删除属性(大量不同值,无泛化操作符) gender:保留该属性,不泛化 major:根据概念分层向上攀升{文,理,工…} birth_place:根据概念分层location向上攀升 birth_date:泛化为age,再泛化为age_range residence:根据概念分层location向上攀升 phone#:删除属性 gpa:根据GPA的分级作为概念分层 主泛化关系 初始工作关系 输入 1. DB; 2. 数据挖掘查询DMQuery; 3. 属性列表; 4. 属性的概念分层; 5. 属性的泛化阈值; 输出 主泛化关系P 算法描述: W get_task_relevant_data(DMQuery, DB) prepare_for_generalization(W) 扫描W,收集每个属性a的不同值 对每个属性a,根据阈值确定是否删除,如果不删除,则计算其最小期望层次L,并确定映射对(v,v`) P generalization(W) 通过使用v`代替W中每个v,累计计数并计算所有聚集值,导出P 每个泛化元组的插入或累积计数 用数组表示P 泛化关系 一部分或者所有属性得到泛化的关系,包含计数或其他度量值的聚集 交叉表 二维交叉表使用每行显示一个属性,使用每列显示另外一个属性将结果集映射到表中 可视化工具: 条形图、饼图、曲线和数据立方体浏览工具(用单元的大小代表计数,用单元亮度代表另外的度量) 量化规则 使用t_weight表示主泛化关系中每个元组的典型性 量化特征规则 将泛化的结果映射到相应的量化特征规则中,比如: 量化特征规则中每个析取代表一个条件,一般,这些条件的析取形成目标类的必要条件,因为该条件是根据目标类的所有情况导出的
文档评论(0)