- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * 例子:分析性比较(3) 1. 数据收集 目标类和比较类 2. 属性相关性分析 remove attributes name, gender, major, phone# 3. 同步概化 controlled by user-specified dimension thresholds prime target and contrasting class(es) relations/cuboids * * 例子:分析性比较 (4) Prime generalized relation for the target class: Graduate students Prime generalized relation for the contrasting class: Undergraduate students * * 例子:分析性比较 (5) 4. 在目标和比较类别上, Drill down, roll up and other OLAP operations,确定概化层次. 5. 展现方式 generalized relations, crosstabs, bar charts, pie charts, or rules 比较性的度量,以体现目标类和比较类之间的差别 e.g. count% * * 量化区分规则 Cj = 目标类 qa = 概化元组 也覆盖比较类别的元组 d-weight 范围: [0, 1] 量化区别规则 * * 例子: 量化区别规则 量化区别规则(135页例5.11) where 90/(90+120) = 30% Count distribution between graduate and undergraduate students for a generalized tuple * * 类别描述 量化特征规则 必要 量化区别规则 充分 量化描述规则 必要和充分 * * 例子: 量化描述规则(136页例5.13) 对于目标类Europe的量化描述规则(137页例5.14) Crosstab showing associated t-weight, d-weight values and total number (in thousands) of TVs and computers sold at AllElectronics in 1998 * * 特征化和比较 什么是概念描述? 数据概化和基于汇总的特征化 分析特征化: 分析属性之间的关联性 挖掘类比较:获取不同类之间的不同处 在大型数据库中挖掘描述统计度量 讨论 总结 * * 挖掘数据散布特征 动机 更好的了解数据: 集中趋势, 差别 和 分布 数据散布特征 median, max, min, quantiles, outliers, variance, 等. * * 衡量中心趋势 平均值 带权平均 中位数: 一个整体度量 如果是奇数,则为中间数,偶数则为中间两数的平均 用插值的方法进行估计 模 出现次数最多的值 Unimodal, bimodal, trimodal Empirical formula: * * 衡量离散趋势 四分位数, 异常 和 盒图 四分位数: Q1 (25th percentile), Q3 (75th percentile) 中间四分位区间: IQR = Q3 – Q1 五数概括: min, Q1, M, Q3, max 盒图: ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually 异常: usually, a value higher/lower than 1.5 x IQR 方差和标准差 Variance s2: (algebraic, scalable computation) Standard deviation s is the square root of variance s2 * * 盒图分析 五数概括: Minimum, Q1, M, Q3, Maximum 盒图 数据用盒子的形式表现 盒子的两端分别是两个分位数, i.e., the height of the box is IRQ 中位数用一条线来表示。 延长线: 从盒子延长到最大和最小值 * * A Boxplot A boxplot * * 数据分布的可视化:盒图分析 * * 在大型数据库中挖掘统计信息 方差 标准差: 方差的平方根 衡量分散程度 当且仅当所有值一样的时候为0。 方差和标准差都是代
您可能关注的文档
- 实践第一章实践幻灯片.ppt
- 排除重复2古诗两首咏柳精品课件一幻灯片.ppt
- 实践环节课原理实践课程2001章节幻灯片.ppt
- 数据库课件第一章数据库系统基本概念幻灯片.ppt
- 数据库课件第一章绪论幻灯片.ppt
- 排除重复2桂林山水精品课件一幻灯片.ppt
- 数据库课件宏幻灯片.ppt
- 排除重复2三亚落日幻灯片.ppt
- 数据库课件模块与VBA程序设计幻灯片.ppt
- 排除重复2雨点幻灯片.ppt
- 2024年中国钽材市场调查研究报告.docx
- 2024年中国不锈钢清洗车市场调查研究报告.docx
- 2024年中国分类垃圾箱市场调查研究报告.docx
- 2024年中国水气电磁阀市场调查研究报告.docx
- 2024年中国绿藻片市场调查研究报告.docx
- 2010-2023历年初中毕业升学考试(青海西宁卷)数学(带解析).docx
- 2010-2023历年福建厦门高一下学期质量检测地理卷.docx
- 2010-2023历年初中数学单元提优测试卷公式法(带解析).docx
- 2010-2023历年初中毕业升学考试(山东德州卷)化学(带解析).docx
- 2010-2023历年初中毕业升学考试(四川省泸州卷)化学(带解析).docx
最近下载
- 2024 ESC心房颤动管理指南解读(全)校对版.pptx
- 期末实验必刷题(含基础,重点,难点)(解析版)-2023-2024学年九年级物理第一学期期末挑战满分训练.docx VIP
- 高考模拟作文“互联网时代的决策之道:信息与理性”审题立意及范文-备战2025年高考语文各地名校模考卷作文导写.docx
- 检维修安全培训.pptx VIP
- 1一个投机者的告白.doc
- 钣金工艺学课件(PPT-83页).ppt
- 中华体育精神的文化内涵与思想来源.docx VIP
- 2023惠州西湖壹城购物中心项目招商手册-41P.pdf
- 第八章 第19节 极点与极线-解析版.docx
- 15ZJ001_建筑构造用料做法.docx
文档评论(0)