第三讲概念描述特征化及比较.ppt

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三讲 概念描述:特征化与比较 什么是概念描述? 数据概化和基于汇总的特征化 解析特征化:属性相关分析 挖掘类比较:区分不同的类 在大型数据库中挖掘统计度量 讨论 小结 What is Concept Description? 描述式与预测式数据挖掘 概念描述: 特征化: 提供给定数据的简洁汇总 比较:提供两个或多个数据汇集的比较描述 概念描述 vs. OLAP操作 概念描述: 能处理复杂的数据类型和属性 一个更自动的过程 OLAP: 限制于低维和数值数据 用户控制过程 概念描述:特征化与比较 什么是概念描述? 数据概化和基于汇总的特征化 解析特征化:属性相关分析 挖掘类比较:区分不同的类 在大型数据库中挖掘统计度量 讨论 小结 数据概化和基于汇总的特征化 数据概化 将大的任务相关的数据集从较低的概念层抽象到较高概念层 方法: 数据立方体(OLAP approach) 面向属性的归纳 特征化: 数据立方体 数据存贮于立方体 汇总计算 e.g., count( ), sum( ), average( ), max( ) 通过上卷和下钻进行 数据归纳的一个有效方法 Data Cube Approach (Cont…) 缺陷 只能处理数值数据和简单的汇总数据. 缺乏智能分析,不能告诉我们那些属性是有用的 面向属性归纳 Proposed in 1989 (KDD ‘89 workshop) 不局限与分类数据和汇总数据类型. 基本思想 用关系数据库查询任务相关数据 概化通过属性删除或属性概化进行. 聚集通过合并相等的广义元组并累计它们的技数值进行 与用户交互式显示 面向属性归纳的基本原则 数据聚焦: 任务相关数据,及其初始化关系. 属性删除: 如果初始工作关系的某个属性有大量不同的值,但是(1)在此属性上没有概化的操作符或者(2)他的较高层概念用其它属性表示,则该属性应当从工作关系中删除. 属性概化: 如果属性上存在概化操作符,则应当选择概化操作符,并将它用于属性. 属性概化控制: typical 2-8, specified/default. 概化关系控制: 控制最后不同元组的个数. see example 面向属性的概化: 基本算法 初始化关系: 查询任务相关的数据. 准备初始化: 判断属性是删除还是概化? PrimeGen: 累技数并计算所有聚集值,导出概化关系. Presentation: 用户交互形式显示 (1) adjust levels by drilling, (2) pivoting, (3) mapping into rules, cross tabs, visualization presentations. Example DMQL: Big-University数据库中任务相关数据 use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate” 相应的 SQL 语句: Select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in {“Msc”, “MBA”, “PhD” } Class Characterization: An Example 导出结果的表示 概化关系: 交叉表,条形图,饼图等: 量化特征规则: 将结果映射到一个特征规则, Presentation—Generalized Relation Presentation—Crosstab 概念描述:特征化与比较 什么是概念描述? 数据概化和基于汇总的特征化 解析特征化:属性相关分析 挖掘类比较:区分不同的类 在大型数据库中挖掘统计度量 讨论 小结 属性相关性分析 为什么进行属性相关性分析? 选择那些属性,在那个层次进行 自动和交互式 Attribute relevance analysis (cont’d) 数据收集 使用保守的AOI进行预相关分析 使用选定的相关分析度量删除不相关和弱相关属性 使用AOI产生概念描述 属性相关度量 Methods 信息增益 Entropy and Information Gain S 包含 si 个 Ci 类样本 i = {1, …, m} 一个给定样本分类所需要

文档评论(0)

0520 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档