- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 (C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 数据挖掘: 探索数据 什么是数据探索? 数据探索的主要目的 有助于选择合适的数据预处理和数据分析技术 有时可以通过对数据进行直观检查来发现模式 本章涵盖的主题主要是探测性数据分析的相关领域 Exploratory Data Analysis (EDA) EDA由统计学家John Tukey创建 鸢尾花(Iris) 本章用到的数据集鸢尾花. 150种鸢尾花的信息,每50种取自三个鸢尾花种之一 三种花类型 (classes): Setosa Virginica Versicolour 四个属性描述 萼片长度和宽度(厘米) 花瓣长度和宽度(厘米) 汇众统计(Summary Statistics) 汇总统计是量化的,用单个数或数的小集合捕获可能很大的值集的各种特性 例子:家庭平均收入 大部分汇总统计只需要简单的计算就可得到结果 频率和众数(Frequency and Mode) 频率定义为 众数定义:具有最高频率的值 百分位数(Percentiles) 对于有序数据,考虑值集的百分位数更有意义. 给定一个有序的或连续的属性x和0与100之间的数p,第p个百分位数xp是一个x值,使得x的p%的观测值小于xp。 位置度量:均值和中位数( Mean and Median) 均值和中位数定义 散布度量: 极差和方差(Range and Variance) 极差:最大值和最小值的差 方差: 均值和方差对离群值很敏感,这样常常需要使用值集散布更稳健的估计. 绝对平均偏差、中位数绝对偏差、四分位数极差 可视化 数据可视化是指以图形或表格的形式显示信息. 成功的可视化需要将数据转化成可视的形式,使得能够借此分析或报告数据的特征和属性之间的关系。 可视化的目标是可视化信息的人工解释和信息的意境模型的形成 例子:海洋表面温度 以摄氏度为单位显示1982年7月的海洋表面温度 (SST) 这张图汇总大约250000格数据 可视化技术: 直方图(Histograms) 直方图 通常显示单个变量值的分布 通过将可能的值分散到箱中,并显示落入每个箱中的对象数. 高度表示对象数 例子: 花瓣宽度 (10 和 20 个箱) 二维直方图 每个属性划分成区间,而两个区间集定义值的二维长方体 例子: 花瓣宽度和花瓣长度 从这个二维直方图,我们能看出什么特点? 可视化技术: 盒状图(Box Plots) 盒状图 由 J. Tukey提出 它是另一种显示一维数值属性分布的方法 例子:盒的下端和上端分别指示第25和第75个百分位数,而盒中的线指示第50个百分位数的值,底部和顶部的尾线分别指示第10和第90个百分位数,离群值用“+”显示 盒状图的例子 盒状图相对紧凑,因此可以将许多盒状图放在一个图中。 疾病基因与各种类型基因的共表达情况 可视化技术: 散布图(Scatter Plots) 散布图 二维散布图,使用数据对象两个属性的值作为x和y坐标值,每个数据对象都都作为平面上的一个点绘制 一般附加的属性可用如大小、颜色、形状等来表示 散布图矩阵可同时考察许多散布图 散布图矩阵例子:鸢尾花 可视化技术: 矩阵(Matrix Plots) 矩阵 主要用于数据矩阵可视化,将数据矩阵的每个元素与图像中的一个像素相关联 这使得容易检查一个类的所有对象是否在某些属性上具有相似的属性值。 如果不同的属性具有不同的值域,则可以对属性标准化,使其均值为0,标准差为1 鸢尾花数据矩阵的可视化 胚胎发育过程表达谱 鸢尾花相关矩阵的可视化 可视化技术: 平行坐标系 平行坐标系 每个属性一个坐标轴 与传统的坐标轴不同,平行坐标系不同的坐标轴平行 ,而不是正交的。对象用线而不是用点来表示。 当对象过多时会产生混乱,但,对象趋于分成少数几组时,而且对象数少时,结果有可能揭示有趣的模式。 平行坐标系显示结果可能依赖于坐标轴的序 鸢尾花的平行坐标系 其他可视化技术 星形坐标(Star Plots) 与平行坐标系相似,但坐标轴从一中心点向四周发散 所有的属性值都映射到[0,1]区间 每个对象映射成一个多边形 Chernoff 脸(Chernoff Faces) Star Plots for Iris Data Setosa Versicolour Virginica Chernoff Faces for Iris Data Setosa Versicolour
原创力文档


文档评论(0)