探索数据分析.ppt

  1. 1、本文档共90页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
教学课件课件PPT医学培训课件教育资源教材讲义

数据挖掘导论 汉明距离:两个等长字符串之间的汉明距离是两个字符串对应位置的字符不同的个数。 214 与 214 之间的汉明距离是0 abcd 与 aacd 之间的汉明距离是1 盒的下端和上端分别指示第25和第75个百分位数,而盒中的线指示第50个百分位数的值,底部和顶部的尾线分别指示第10和第90个百分位数,离群值用“+”显示 动画 数据切片的另一种方法是使用动画,其基本思想是显示数据的相继二维切片。 尽管动画具有视觉吸引力,但是一组静止的图可能更有用,因为这种类型的可视化使得我们可以按任意次序、使用任意多时间来研究这些信息。 可视化高维数据 矩阵 图像可以看作像素的矩形阵列将数据矩阵的每个元素与图像中的一个像素相关联。 这使得容易检查一个类的所有对象是否在某些属性上具有相似的属性值。 如果不同的属性具有不同的值域,则可以对属性标准化,使其均值为0,标准差为1 鸢尾花数据矩阵的可视化 可视化技术: 平行坐标系 平行坐标系 每个属性一个坐标轴 与传统的坐标轴不同,平行坐标系不同的坐标轴平行 ,而不是正交的。对象用线而不是用点来表示。 当对象过多时会产生混乱,但,对象趋于分成少数几组时,而且对象数少时,结果有可能揭示有趣的模式。 平行坐标系显示结果可能依赖于坐标轴的序 鸢尾花的平行坐标系 其他可视化技术 星形坐标(Star Plots) 与平行坐标系相似,但坐标轴从一中心点向四周发散 所有的属性值都映射到[0,1]区间 每个对象映射成一个多边形 Chernoff 脸(Chernoff Faces) 星形坐标 Setosa Versicolour Virginica Chernoff Faces for Iris Data Setosa Versicolour Virginica OLAP和多维数据分析 联机分析处理On-Line Analytical Processing (OLAP) 由关系数据库之父 E. F. Codd提出。 OLAP一般用多维数组表示数据 如何将数据转化成多维数组? 属性值需要离散化 目标值可以是计数或连续值等 OLAP是针对特定问题的联机数据访问和分析。通过信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。 OLAP的特性 快速性 系统能在数秒内对用户的多数分析要求作出反应。 可分析性 用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告。 多维性 提供对数据分析的多位视图和分析。 信息性 能及时获得信息,并且管理大容量信息。 维度表与事实表的连接:星型架构 星形架构是以事实表为核心,其他维度表围绕这个核心表呈星形分布。 雪花型架构 雪花型架构也是以事实数据表为核心,某个维度表不是直接与事实表关联,而是与另一个维度表关联 星型雪花架构 星型架构和雪花型架构合并在一起使用。 多维数据的存储方式 传统的OLAP系统中,数据是以二维表结构存储的。 多维数据集中,数据主要用于分析和辅助决策支持,有三种存储方式:MOLAP、ROLAP、HOLAP 例子: 鸢尾花多维数组 离散花瓣长度、宽度为低、中、高 我们得到下面的表 – 注意计数属性 二维表切片 Virginica Setosa花具有较低的宽度和长度,Versicolour花具有中等的宽度和长度,Virginica花具有较高的宽度和长度 Setosa Verslcolour 分析多维数据: 数据立方体 数据的多维表示,连同所有可能的总和(聚集)称为数据立方体 转轴是指在除两个维之外的所有维上聚集。结果是一个二维交叉表,只有两个指定的维作为留下的维 OLAP分析方法:转轴(pivoting) OLAP分析方法:切片(Slicing ) 切片是通过对一个或多个维指定特定的值,从整个多维数组中选择一组单元. 切块(dicing) 切块通过指定属性值区间选择单元子集. 这等价于由整个数组定义子数组 上卷和下钻(Roll-up and Drill-down) 属性值有一些可以组织成树或格. 例子:日期由年、月、日组成 我们可以按月聚集(上卷)销售数据 我们可以将月销售总和分解(下钻)成日销售 这要求基本销售数据的时间粒度是按天的 上卷(roll-up) 下钻(drill down) 余弦相似度实际上是x和y之间夹角的度量。如果相似度为1,则x和y之间夹角为0°,除大小(长度)之外,x和y是相同的;如果余弦相似度为0,则x和y夹角为90°,它们不包含任何相同的词。 广义Jaccard系数和相关性 广义Jaccard系数可以用于文档数据,并在二元属性情况下归约为Jaccard系数。又称Tanimoto系数。 两个

文档评论(0)

yuzongxu123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档