1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5概念描述

概念描述:特征化与比较 什么是概念描述? 描述性挖掘 VS. 预测性挖掘 描述性数据挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。 预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。 概念描述:即对概念的描述,概念通常指数据的汇集。概念描述产生数据的特征化和比较(当所描述的概念所指的是一类对象时,也称为类描述) 特征化:提供给定数据集的简洁汇总。 区分:提供两个或多个数据集的比较描述。 概念描述 VS. OLAP 概念描述和数据仓库的联机分析处理(OLAP)都跟数据概化密切相关,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。 两者的主要区别: OLAP 实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型 一个由用户控制的过程 概念描述 可以处理复杂数据类型的属性及其聚集 一个更加自动化的过程 数据概化及方法 数据概化 数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。 主要方法: 数据立方体(OLAP使用的方法) 面向属性的归纳方法 数据立方体方法 执行计算并将结果存储在数据立方体中 优点: 有效实现数据概化的算法 可以计算各种不同的度量值 比如:count(), sum(), average(), max() 概化和特征分析通过一系列的数据立方体操作完成,比如上卷、下钻等 缺点 只能处理非数值类型的维和简单聚集数值类型的度量值 缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次 面向属性的归纳 Attribute-oriented induction, AOI (KDD `89 Workshop) 受数据类型和度量类型的约束比较少 面向属性归纳的基本思想: 使用关系数据库查询收集任务相关的数据 通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化 通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作 通过与用户交互,将广义关系以图表或规则等形式,提交给用户 面向属性的归纳的基本步骤 数据聚焦,获得初始工作关系 进行面向属性的归纳 基本操作是数据概化,对有大量不同值的属性,进行进一步概化 属性删除 属性概化 属性概化控制:控制概化过程,确定有多少不同的值才算是有大量不同值的属性 属性概化临界值控制 概化关系临界值控制 数据聚焦 (1) 目的是获得跟任务相关的数据集,包括属性或维,在DMQL中他们由in relevance to子句表示。 示例: DMQL: 描述Big-University数据库中研究生的一般特征 use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate” 数据聚焦 (2) 将数据挖掘查询转换为关系查询 Select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in {“Msc”, “MBA”, “PhD” } 数据聚焦时的困难 用户在指定相关的属性集方面存在困难,遗漏在描述中可能起作用的属性 用户可能引进太多的属性 数据概化 属性删除的适用规则:对初始工作关系中具有大量不同值的属性,符合以下情况,应使用属性删除: 在此属性上没有概化操作符(比如该属性没有定义相关的概念分层) 该属性的较高层概念用其他属性表示 属性概化的使用规则:如果初始工作关系中的某个属性具有大量不同值,且该属性上存在概化操作符,则使用该概化操作符对该属性进行数据概化操作 属性概化控制 确定什么是“具有大量的不同值”,将属性概化控制到多高的抽象层。 属性概化控制的两种常用方法: 属性概化临界值控制 对所有属性设置一个概化临界值或者是对每个属性都设置一个临界值(一般为2到8) 概化关系临界值控制 为概化关系设置一个临界值,确定概化关系中,不同元组的个数的最大值。(通常为10到30,应该允许在实际应用中进行调整) 两种技术的使用顺序:使用属性概化临界值控制来概化每个属性,然后使用关系临界值控制进一步压缩概化的关系。 相等元组的合并、累计计数和其他聚集值 面向属性的归纳——示例 挖掘Big-Univer

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档