- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘4章挖掘原语,语言和体系结构PPT
特征化和比较 什么是概念描述? 数据概化和基于汇总的特征化 分析特征化: 分析属性之间的关联性 挖掘类比较:获取不同类之间的不同处 在大型数据库中挖掘描述统计度量 讨论 总结 挖掘数据散布特征 动机 更好的了解数据: 集中趋势, 差别 和 分布 数据散布特征 median, max, min, quantiles, outliers, variance, 等. 衡量中心趋势 平均值 带权平均 中位数: 一个整体度量 如果是奇数,则为中间数,偶数则为中间两数的平均 用插值的方法进行估计 模 出现次数最多的值 Unimodal, bimodal, trimodal Empirical formula: 衡量离散趋势 四分位数, 异常 和 盒图 四分位数: Q1 (25th percentile), Q3 (75th percentile) 中间四分位区间: IQR = Q3 – Q1 五数概括: min, Q1, M, Q3, max 盒图: ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually 异常: usually, a value higher/lower than 1.5 x IQR 方差和标准差 Variance s2: (algebraic, scalable computation) Standard deviation s is the square root of variance s2 盒图分析 五数概括: Minimum, Q1, M, Q3, Maximum 盒图 数据用盒子的形式表现 盒子的两端分别是两个分位数, i.e., the height of the box is IRQ 中位数用一条线来表示。 延长线: 从盒子延长到最大和最小值 OLAP方法 在数据立方体上进行计算和存储结果 优点 效率高 能够计算多种汇总 如:count,average,sum,min,max 还可以使用roll-down和roll-up操作 限制 只能处理非数值化数据和数值数据的简单汇总。 只能分析,不能自动的选择哪些字段和相应的概念层次 面向属性的归纳 KDD Workshop(89)中提出 不限制于种类字段和特定的汇总方法 方法介绍: 使用SQL等收集相关数据 通过数据属性值删除和属性值概化来实现概化 聚集通过合并相等的广义元组,并累计他们对应的计数值进行 和使用者之间交互式的呈现方式. 基本方法 数据聚焦:选择和当前分析相关的数据,包括维。 属性删除: 如果某个属性包含大量不同值,但是 1)在该属性上没有概化操作, 或者2)它的较高层概念用其它属性表示。 属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。 属性阈值控制: typical 2-8, specified/default. 概化关系阈值控制: 控制最终关系的大小 基本算法 InitialRel: 得到相关数据,形成初始关系表 PreGen: 通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。 PrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。 结果的表示:概化关系、交叉表、3D立方体 示例 DMQL: use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate” 相应的SQL: Select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in {“Msc”, “MBA”, “PhD” } 类特征化:示例 Prime Generalized Relation Initial Relation 概化结果的表示 概化关系: 一个表格,其中有属性字段,后附汇总方法。 交叉表: 二维交叉表 可视化方法: Pie charts, bar charts, curves, cubes, and other visual forms. 量化特征规则: (上表与136页例4.26) 表达方式-概化关系(133页例4.22) 表
您可能关注的文档
最近下载
- 《饮用水源保护区》课件.ppt VIP
- 《宪法基本知识课件:公务员考试公基必备》.ppt VIP
- 2022年CCAA注册审核员《产品认证基础》试题(网友回忆版).docx VIP
- 证明某人是某个公司的实际控制人的协议书6篇.docx VIP
- 2025-2026新人教版小学3三年级数学上册全册教案【新教材】.doc
- 精品解析:天津市河西区2024-2025学年八年级下学期期末数学试卷(解析版).docx VIP
- 慢性病管理系统技术要求.docx VIP
- PaperCut 安装说明.pdf VIP
- API 686-2009(美国石油协会)机械设备安装以及安装设计建议的惯例讲解.ppt
- 3.宠物医院人力资源管理《宠物医院实务》教学课件.pptx VIP
文档评论(0)