- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第8章 数据泛化
4. Initial working relation (W0) derivation R = 0.1 remove irrelevant/weakly relevant attributes from candidate relation = drop gender, birth_country remove contrasting class candidate relation 5. Perform attribute-oriented induction on W0 using Ti Initial target class working relation W0: Graduate students 目标类的主概化关系: 研究生 对比类的主概化关系: 本科生 Majar Majar science engineering engineering engineering engineering science 三、 类比较描述的判别规则表示 类比较描述中的目标类和对比类的区分特性也可以用量化规则来表示,即量化区分规则 量化区分规则使用d-weight作为兴趣度度量 qa-概化元组 Cj-目标类 qa的d-weight是初始目标类工作关系中被qa覆盖的元组数 与 初始目标类和对比类工作关系中被qa覆盖的总元组数的比 例如: 对于类比较描述的目标类的量化区分规则: 对给定的status=Graduate, Birth_coutry=Canada, Age_range=25-30, Gpa=Good 概化元组,其d-weight=90/(90+210)=30% (具体什么含义?) 示例的量化区分规则表达如下: 请注意该区分规则表达的是充分条件,即X满足条件,则X为研究生的概率为30% 基于假设驱动的探查方法 exploration by user, huge search space 基于发现驱动的探查方法(Sarawagi, et al.’98) Effective navigation of large OLAP data cubes pre-compute measures indicating exceptions, guide user in the data analysis, at all levels of aggregation Visual cues such as background color are used to reflect the degree of exception of each cell 7.3 数据立方体中的数据分析探查方法 一、数据立方体中基于发现驱动的探查方法 Exception: significantly different from the value anticipated, based on a statistical model 异常的种类及其描述 Kinds of Exceptions and their Computation InExp: surprise beneath the cell PathExp: surprise beneath cell for each drill-down path SelfExp: surprise of cell relative to other cells at same level of aggregation 因此可以在数据立方体中构建相应的模型,通过计算,三个异常指示器SelfExp, InExp, and PathExp 的值来指示可能存在的数据异常,指导用户进行数据探察和分析。 Exception themselves can be stored, indexed and retrieved like precomputed aggregates 2002 2003 2004 2005 2006 2007 2008 … 08 … … 18 … SelfExp PathExp InExp Examples: Discovery-Driven Data Cubes 异常 提供了对数据分析中潜在问题的导航作用 从顶向下的计算策略,而MIS中一般是自底向上计算 数据的泛化与细化(各个层次的聚集) 特点: 数据仓库与数据挖掘 * 数据仓库与数据挖掘 * 第8章 数据泛化 * 7.1面向属性的归纳 7.2 挖掘类比较:区分不同的类 7.3 数据立方体中的数据分析探查方法 目 录 比较 描述性挖掘 数据挖掘 预测性挖掘 概念描述 (泛化) 特征化 数据挖掘的分类 描述性挖掘:以简洁概要的方式描述数据,并提供数
您可能关注的文档
- 第6课 《近代前夜的发展与迟滞》课件.ppt
- 第6课 分支结构程序设计.ppt
- 第6节 汽化与液化(第3课时) b.ppt
- 第6节几种重要的盐(第2课时).ppt
- 第6课_近代前夜的发展与迟滞必修二.ppt
- 第6讲-建筑场地布局-2.ppt
- 第6课岳麓版必修二.ppt
- 第6课时病句(不合逻辑).ppt
- 第6课时 一次函数复习课.ppt
- 第6课时:数的产生及十进制计数法.ppt
- 2025至2030中国婴儿拉式蚊帐行业发展现状及发展趋势与投资风险报告.docx
- 2025至2030中国半导体陶瓷靶行业项目调研及市场前景预测评估报告.docx
- 2025至2030中国果汁行业供需趋势及投资风险报告.docx
- 2025至2030中国双节距滚子链行业项目调研及市场前景预测评估报告.docx
- 2025至2030全球及中国电子电气中的cPDM行业项目调研及市场前景预测评估报告.docx
- 2025至2030工业风幕行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至20305G技术行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030钛合金行业产业运行态势及投资规划深度研究报告.docx
- 2025至2030中国冶金工程施工总承包行业运营态势与投资前景调查研究报告.docx
- 2025至2030铁路IT支出行业产业运行态势及投资规划深度研究报告.docx
最近下载
- 2024年中国零售商调查报告—全球化视角之海外门店拓展.pdf VIP
- 八大特殊作业(八大危险作业)安全管理知识与规范培训(PPT132页).pptx VIP
- 银行会计岗位招聘笔试题(某大型集团公司)试题集解析.docx VIP
- 磅房计量考试试题及答案.doc VIP
- 绿化养护标准及收费办法.docx VIP
- 儿童闭塞性细支气管炎的诊断和治疗(2023版)专家共识解读课件.pptx VIP
- CTX-M耐药基因流行病学调查及耐药机制研究.pdf
- 中国共产党纪律处分条例测试题附答案+考试注意事项.doc VIP
- 财务会计与税务会计差异及协调探讨.doc VIP
- (高清版)DG∕TJ 08-2410-2022 文物和优秀历史建筑消防技术标准.docx VIP
文档评论(0)