数据挖掘课件数据挖掘5章概念描述:特征化与比较幻灯片.ppt

数据挖掘课件数据挖掘5章概念描述:特征化与比较幻灯片.ppt

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * 例子:分析性比较(3) 1. 数据收集 目标类和比较类 2. 属性相关性分析 remove attributes name, gender, major, phone# 3. 同步概化 controlled by user-specified dimension thresholds prime target and contrasting class(es) relations/cuboids * * 例子:分析性比较 (4) Prime generalized relation for the target class: Graduate students Prime generalized relation for the contrasting class: Undergraduate students * * 例子:分析性比较 (5) 4. 在目标和比较类别上, Drill down, roll up and other OLAP operations,确定概化层次. 5. 展现方式 generalized relations, crosstabs, bar charts, pie charts, or rules 比较性的度量,以体现目标类和比较类之间的差别 e.g. count% * * 量化区分规则 Cj = 目标类 qa = 概化元组 也覆盖比较类别的元组 d-weight 范围: [0, 1] 量化区别规则 * * 例子: 量化区别规则 量化区别规则(135页例5.11) where 90/(90+120) = 30% Count distribution between graduate and undergraduate students for a generalized tuple * * 类别描述 量化特征规则 必要 量化区别规则 充分 量化描述规则 必要和充分 * * 例子: 量化描述规则(136页例5.13) 对于目标类Europe的量化描述规则(137页例5.14) Crosstab showing associated t-weight, d-weight values and total number (in thousands) of TVs and computers sold at AllElectronics in 1998 * * 特征化和比较 什么是概念描述? 数据概化和基于汇总的特征化 分析特征化: 分析属性之间的关联性 挖掘类比较:获取不同类之间的不同处 在大型数据库中挖掘描述统计度量 讨论 总结 * * 挖掘数据散布特征 动机 更好的了解数据: 集中趋势, 差别 和 分布 数据散布特征 median, max, min, quantiles, outliers, variance, 等. * * 衡量中心趋势 平均值 带权平均 中位数: 一个整体度量 如果是奇数,则为中间数,偶数则为中间两数的平均 用插值的方法进行估计 模 出现次数最多的值 Unimodal, bimodal, trimodal Empirical formula: * * 衡量离散趋势 四分位数, 异常 和 盒图 四分位数: Q1 (25th percentile), Q3 (75th percentile) 中间四分位区间: IQR = Q3 – Q1 五数概括: min, Q1, M, Q3, max 盒图: ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually 异常: usually, a value higher/lower than 1.5 x IQR 方差和标准差 Variance s2: (algebraic, scalable computation) Standard deviation s is the square root of variance s2 * * 盒图分析 五数概括: Minimum, Q1, M, Q3, Maximum 盒图 数据用盒子的形式表现 盒子的两端分别是两个分位数, i.e., the height of the box is IRQ 中位数用一条线来表示。 延长线: 从盒子延长到最大和最小值 * * A Boxplot A boxplot * * 数据分布的可视化:盒图分析 * * 在大型数据库中挖掘统计信息 方差 标准差: 方差的平方根 衡量分散程度 当且仅当所有值一样的时候为0。 方差和标准差都是代

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档