第3章-探索数据.pptVIP

  • 21
  • 0
  • 约7.54千字
  • 约 62页
  • 2017-06-08 发布于湖北
  • 举报
第3章-探索数据

例:鸢尾花数据集(续) 该数组可以显示为三个二维表切片,每个对应一个种类 数据立方体 从多维角度看待数据的主要动机就是需要以多种方式聚集数据。 数据立方体是数据及其所有可能的聚集的多维表示。 数据立方体(例) 考虑一个数据集 记录在不同日期的产品销售情况。 数据可以表示为一个3维阵列:产品ID、地点和日期 目标属性是收入。 维归约和转轴 聚集可以看作一种形式的维归约。 转轴( pivoting) 是指在除两个维之外的所有维上聚集。 结果是一个二维交叉表,只有两个指定的维作为留下的维。 切片和切块 切片(slicing) 是通过对一个或多个维指定特定的值,从整个多维数组中选择一组单元。 切块(dicing) 通过指定属性值区间选择单元子集 上卷和下钻 考虑最初的销售数据,它是多维数组, 记录每天的销售。 按月聚集(上卷, roll up) 销售数据 将月销售总和分解(下钻, drill down ) 成日销售总和 问题 问题 * 可视化技术:直方图 直方图(Histogram) 通常显示单个变量值的分布 将值划分为箱,并显示每个箱中对象数的条形图. 每个条的高度表示对象的数目 直方图的形状取决于箱的计数 Example: Iris数据集萼片长度\宽度, 花瓣长度\宽度的等宽直方图(10bins) 直方图(续) 二维直方图(two-dimensional histogram) 显示两个属性值的联合分布 例: Iris数据集的花瓣长度和花瓣宽度的二维直方图 可视化技术:盒图 盒状图 由J. Tukey提出 是显示数据分布的另一种方法 Iris数据集萼片长度盒状图 outlier 10th percentile 25th percentile 75th percentile 50th percentile 90th percentile 盒图(续) 盒图可以用来进行属性比较 盒图(续) 使用盒状图来比较不同对象类之间的属性如何变化 可视化技术:饼图 饼图(pie chart) 类似于直方图,但通常用于具有相对较少的值的分类属性 饼图使用圆的相对面积显示不同值的相对频率 例: Iris数据集鸢尾花的类型分布 可视化技术:累计分布函数 累计分布函数(cumulative distribution function, CDF) 对于统计分布的每个值/每个观测值, 显示点小于该值的概率 经验累计分布函数是一个阶梯函数 Iris数据集 萼片长度\宽度, 花瓣长度\宽度 可视化技术:散点图 散点图(Scatter plots) 使用数据对象两个属性的值作为x 和y 坐标值 2维散点图最常见, 也有3维散点图 更多的属性可以用代表对象的标记的大小、形状和颜色等显示 散点图阵列可以简洁地总结几对属性之间的关系 用途 它们图形化地显示两个属性之间的关系 当类标号给出时,可以使用散布图考察两个属性将类分开的程度 试用直线或简单曲线把平面分成相对纯的两部分 散点图:例 例: Iris数据集的散点图矩阵 许多属性对(例如,花瓣宽度和花瓣长度)都提供了适度的鸢尾花种类分隔 散点图:显示3个属性 显示3个属性有两种方法 方法1: 三维散点图 例, Iris数据萼片宽度、萼片长度和花瓣宽度的三维散点图 散点图:显示3个属性(续) 方法2: 用二维散点图 把第3个属性与标记的某种特性(如大小、颜色或形状)相关联 例: Iris数据集花瓣长度对花瓣宽度的散布图,标记的大小指示萼片宽度 时间空间数据:等高线图 等高线图 (Contour plots) 连续属性在空间栅格上的观测值的集合 把平面划分成相似的值区域 区域边界的轮廓线是由值相等的点连接而成 最常见的例子:地面位置的海拔高度的等高线图 还可以显示温度、降雨量、气压等 等高线图:例 1998年12月份平均海洋表面温度(SST)的等高线图 地面温度被随意的设定为0?C Celsius 时间空间数据:曲面图 曲面图(surface plot)使用两个属性表示x和y坐标,曲面图的第三个属性用来指示高出前两个属性定义的平面的高度 要求至少某个范围内,对于前两个属性值的所有组合,第三个属性的值有定义 适合规则曲面 例:12个点的密度函数 时间空间数据:低维切片 记录不同地点和时间上的某种量 ----涉及4个维 例:1982年12个月海平面气压 可视化高维数据:矩阵 基本思想 图像可以看作像素的矩形阵列, 其中每个像素用它的颜色和亮度刻画 数据矩阵是值的矩形阵列 将数据矩阵的每个元素与图像中的一个像素相关联, 就可以把数据矩阵看作图像, 像素的亮度和颜色由矩阵对应元素的值决定 实践考虑 如果类

文档评论(0)

1亿VIP精品文档

相关文档