- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据仓库第七章数据仓库第七章2.基于属性归纳方法(续) 概化过程会产生一系列内容相同的数据行,相同内容的数据行被合并成一个,并累计它们的计数值。最终结果如下表:数据仓库第七章性别专业出生国年龄区间出生城市GPA累计男科学中国20—25合肥良好16女工程中国25—30上海优秀22对初始关系的数据进行基于属性归纳得到的广义关系:数据仓库第七章3.基于属性归纳算法算法:基于属性的归纳输入:(1)关系DB;(2)数据挖掘命令DMQuery;(3)属性表a_list;(4)属性ai上的概念分层或概化操作符的集合Gen(a);(5)每个属性ai概化阈值a_gen_thresh(a)数据仓库第七章3.基于属性归纳算法(续)输出:主概化关系P(包含基于a_list属性集的一个定性概念描述)方法:(1)W←get_task_relevant_data(DMQuery,DB);//工作关系W存放任务相关的数据(2)prepare_for_generalization(W)//该步实现如下:数据仓库第七章3.基于属性归纳算法(续)(a)扫描W,收集每个ai属性取不同值的个数。(b)对每个属性ai,根据给定的或缺省的属性阈值,确定ai是否应当删除;如果不删除,则计算它的最小期望层次Li,并确定映射对(v,v’),基中v是W中ai的不同值,v’是其在层Li对应的概化值。数据仓库第七章3.基于属性归纳算法(续)(3)P←generalization(W) 通过用其在映射中对应的v’替换W中每个值v,累计计数并计算所有聚集值,导出主概化关系P。 这一步可用下面两种方法有效实现:(a)对每个概化元组,通过二分检索将它插入主关系P中。如果元组已在P中,则简单地增加它的计数值并相应处理其他聚集值;否则,将它插入P。数据仓库第七章3.基于属性归纳算法(续)(b)在大部分情况下,由于主关系层不同值的个数很少,可以将主关系编码,作为m_维数组,其中m是P中的属性数,而每个维包含对应的概化属性值。数组的每个元素存放对应的计数和其他聚集值。概化元组的插入通过对应的数组元素上的度量聚集进行。数据仓库第七章4.基于属性归纳结果的表示基于属性归纳方法的挖掘结果可以有多种输出表示形式。数据仓库第七章地点商品销售额(百万)个数累计(千)亚洲电视15300欧洲电视12250北美电视28450亚洲电脑1201000欧洲电脑1501200北美电脑2001800表格表示描述数据仓库第七章地点或商品电视电脑电视+电脑销售额累计销售额累计销售额累计亚洲1530012010001351300欧洲1225015012001621450北美2845020018002282250所有地区45100047040005255000组合表表示描述数据仓库第七章棒图表示描述数据仓库第七章第七章概念描述7.1概念描述基本知识7.2数据概化与基于汇总的特征化7.3解析特征化—属性相关分析7.4挖掘概念比较—区分不同的类数据仓库第七章7.3解析特征化—属性相关分析1.属性相关分析意义 在挖掘定性概念描述知识过程中,DW和OLAP工具中的多维数据分析有两个局限:一是无法处理复杂对象,二是缺乏自动概化过程。数据仓库第七章1.属性相关分析意义(续) 通常,用户告诉数据挖掘系统每个维应当概化到多高层次并不困难,但确定数据集的定性描述应包含哪些属性是一件困难的事。我们引进一些方法进行属性(或维)相关分析,以过滤掉统计上不相关或弱相关的属性,而保留与挖掘任务最相关的属性。数据仓库第七章1.属性相关分析意义(续)包含属性(维)相关分析的类特征化称为解析特征化;包含属性(维)相关分析的类比较称为解析比较。 直观上,若一个属性的取值可以帮助有效地区分不同类别的数据集,则这个属性就被认为是与相应类别数据集密切相关的。数据仓库第七章1.属性相关分析意义(续)例:一辆汽车的颜色不太可能用于区分贵贱汽车(类别),但汽车的型号、品牌、制造商、款式和气缸数可能是更相关的属性。此外,即使在同一个维内,对于区分一个类与其他类,在不同的概念层也可能有很不相同的能力。数据仓库第七章1.属性相关分析意义(续)例:在出生日维中,生日和生月都不太可能与雇员的工资相关
您可能关注的文档
最近下载
- 内审检查表-管理层(42061、13485).doc VIP
- 2.1.2 植物 第1课时 苔藓植物和蕨类植物(教学课件)生物冀少版2024七年级上册.pptx VIP
- 国开(电大)本科《管理英语4》形考任务(单元自测1至8)试题及答案.docx VIP
- 中医康复护理临床实践新进展题库及答案-2025年华医网继续教育.docx VIP
- 屋面设备基础施工深化要点.docx VIP
- DB42∕T 2308-2024 绿色建筑检测技术标准.pdf
- 宏盛微半导体ME6261_C3.0.pdf VIP
- 污水处理系统员工培训手册_.docx VIP
- 机械工程控制基础课件.pptx VIP
- 天津华宁KTC101系统说明书.pdf VIP
文档评论(0)