第06章 探索数据(B)精要.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
范例: 海洋表面温度 The following shows the Sea Surface Temperature (SST) for July 1982 数以万计的数据点汇总在一个单一的图像里 * 有序数据 时空数据 Average Monthly Temperature of land and ocean * 表示 将信息映射成可视形式 将数据对象, 属性和联系转换成诸如点、线、形状和颜色等图形元素. 例如: 对象经常表示为点 属性值可表示为点的位置或者是点的特征,如颜色,大小,形状 如果使用位置表示点的关系,那么很容易感知它们是否能构成团或者一个点是孤立点 * 安排 是可视化显示中可视元素的安排,变得简单更易于理解数据 例如: * 安排 * 选择 删除或不突出某些对象和属性 选择可能包括选择属性子集 降维通常用于将维度降至2个到3个 要不选择一对属性 选择可能包括选择对象子集 一个屏幕的区域只显示多少点 可以抽样,但希望保持稀疏区域的点 * 可视化技术: 直方图 直方图 通常显示单变量的值的分布 划分值到箱中,并显示每个箱中对象数目的条形图 直方图的形状取决于箱的数目 范例: 花瓣宽度 (10 and 20 bins, respectively) * 二维直方图 显示两个属性的值的联合分布 范例: 花瓣宽度和花瓣长度 What does this tell us? * 可视化技术: 盒状图 盒状图 Invented by J. Tukey 另一种显示数据属性的方式 下图是一个盒状图的基本部分 outlier 10th percentile 25th percentile 75th percentile 50th percentile 10th percentile * 盒状图的例子 方块图可以用来比较属性 * 可视化技术: 散布图 散布图 属性值决定位置 二维散布图最为通用,但也有三维散布图 通常使用代表对象标记的大小,形状和颜色来显示附加属性 散点图阵列用于简洁地汇总几对属性的关系 见下页范例 * 鸢尾花属性的散布图阵列 * 可视化技术: 等高线图 等高线图 用于在空间网格中连续属性的度量 基于相似值将平面划分为区域 这些区域边界的等高线将等值的点连接起来 最常见的例子是海拔的等高线图 也可以显示温度,降水,气压等. An example for Sea Surface Temperature (SST) is provided on the next slide * 等高线范例: SST Dec, 1998 Celsius * 可视化技术: 矩阵图 矩阵图 可以绘制数据矩阵 依据类标号排列对象次序很有用 典型地, 属性的标准化可避免一个属性主导整个矩阵图 相似矩阵或者距离矩阵能用于可视化对象之间的关系 范例: * 鸢尾花数据矩阵图 标准差 * 鸢尾花数据相关矩阵 相似度 * 可视化技术: 平行坐标系 平行坐标系 用于图示高维数据的属性值 使用一组平行轴而不是垂直轴 每个对象的属性值在每个对应的坐标轴上都是一个点,并且这些点用线连起来 因此,每个对象用一条线表示 通常情况下,这些线代表不同的一组对象类,至少对于某些属性而言 属性的次序在观察这些组时是很重要的 * 鸢尾花属性的平行坐标图 * 其它可视化技术 星形图 类似于平行坐标系, 但坐标轴从中心点向四周辐射 连接对象的值的线条构成一个多边形 Chernoff 脸 由 Herman Chernoff 提出 用脸的特征关联每个属性 每个属性的值决定对应的脸部特征的表达方式 每个对象变成分割的脸 依赖人对脸的分辨能力 * 其它可视化技术 星形图 类似于平行坐标系, 但坐标轴从中心点向四周辐射 连接对象的值的线条构成一个多边形 Chernoff 脸 * 鸢尾花数据的星形坐标 Setosa Versicolour Virginica * 数据仓库与数据挖掘 第06章 数据探索 第6章 数据探索 鸢尾花数据库集 汇总统计 可视化 OLAP与多维数据分析 * 什么是数据探索? 数据探索的主要动机包括 有助于选择合适的数据预处理和数据分析技术 有助于直接发现模式 可以不借助数据分析技术直接发现模式 与探索性数据分析(EDA:Exploratory Data Analisis)领域有关联 统计学家 John Tukey 创建 探索性数据分析一书由 Tukey 完成 可以在第一章找到 the NIST Engineering Statistics Handbook 的在线介绍 /div898/handbook/index.htm 初步的数据探索有利于了解数据的性质. * 数据探

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档