大数据可视化 第2版 课件全套1--14 第1章 数据可视化基础 - 第14章 数据可视化评测.pptx

大数据可视化 第2版 课件全套1--14 第1章 数据可视化基础 - 第14章 数据可视化评测.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;;弗洛伦斯·南丁格尔(1820年5月12日~1910年8月13日)是世界上第一个真正意义上的女护士,被誉为现代护理业之母,每年5.12国际护士节就是南丁格尔的生日。

南丁格尔“极区图”是作为统计学家的南

丁格尔对利用图形来展示数据进行的早期

探索,充分说明了数据可视化的价值,特

别是在公共领域的价值。;数据是什么?大部分人会含糊地回答说,数据是一种类似电子表格的东西或者一大堆数字。有点儿技术背景的人会提及数据库或者数据仓库。然而,这些回答只说明了获取数据的格式和存储数据的方式,并未说明数据的本质是什么,以及特定的数据集代表着什么。;当你可视化数据的时候,其实是在可视化现实世界的抽象表达,或至少是将其细微方面可视化。可视化能帮助你从独立的数据点中解脱出来,从一个不同的角度去探索它们。

图1-3杭州城市大脑20秒发现

路面交通事件;;PART01;要想把数据可视化,就必须知道它表达的是什么。

数据是符号的集合,是表达客观事物的未经加工的原始素材。例如图形、符号、数字、字母等都是数据的不同形式。数据模型是用来描述数据表达的底层描述模型,它包含数据的定义和类型,以及不同类型数据的操作功能,例如浮点数类型可以配备加、减、乘、除操作等。与数据模型对应的是概念模型,它对目标事物的状态和行为进行抽象的语义描述,并提供构建、推理支持等操作。例如,一维浮点数可以描述温度,三维浮点数向量可以描述空间的风向等。;数据是数据对象和其属性的集合,属性可以是变量、值域、特征或特性,如人类头发的颜色、人类的体温等。单个数据对象可以由一组属性描述,称为记录、点、实例、采样、实体等。属性值可以是表达属性的任意数值或符号,同一类属性可以具有不同的属性值,例如,长度的度量单位可以是英尺或米。不同的属性也可能具有相同的取值和不同的含义,例如,年份和年龄都是整数型数值,而年龄通常有取值区间。;数据是现实世界的一个快照,会传递给我们大量的信息。一个数据点可以包含时间、地点、人物、事件、起因等因素。因此,一个???字不再只是沧海一粟。可是,从一个数据点中提取信息并不像一张照片那么简单。你需要观察数据产生的来龙去脉,并把数据集作为一个整体来理解。关注全貌,比只注意到局部时更容易做出准确的判断。;通常在实施记录时,由于成本太高或者缺少人力,人们只能获取零碎的信息,然后寻找其中的模式和关联,凭经验猜测数据所表达的含义。数据和它所代表的事物之间的关联既是把数据可视化的关键,也是全面分析数据的关键,同样还是深层次理解数据的关键。计算机可以把数字批量转换成不同的形状和颜色,但是你必须建立起数据和现实世界的联系,以便使用图表的人能够从中得到有价值的信息。;数据的分类和信息与知识的分类相关。从关系模型的角度讲,数据可被分为实体和关系两部分。实体是被可视化的对象;关系定义了实体与其他实体之间关系的结构和模式。关系可被显式地定义,也可在可视化过程中逐步挖掘。实体或关系可以配备属性,实体、关系和属性在数据库设计中被广泛使用,形成关系数据库的基础。;实体关系模型能描述数据之间的结构,但不考虑基于实体、关系和属性的操作。常规的数据操作包括:数值计算;数据列表的插入、融合与删除;取反;生成新的实体或关系;实体的变换;从其他对象中形成新对象;单个实体拆分成组件。;数据属性分为离散属性和连续属性。离散属性的取值来自有限或可数的集合,例如邮政编码、等级、文档单词等;连续属性则对应于实数域,例如温度、高度和湿度等。在测量和计算机表示时,实数精度受限于所采用的数值精度。针对这些基本数据类型的交互方法有;概括、缩放、过滤、查看细节、关联、查看历史和提取等,这些基本任务构成了可视化设计的基础。;数据集是数据的实例。常见的数据集的表达形式有三类。

(1)数据记录集。由一组包含固定属性值的数据元素组成。数据记录主要有三种形式:数据矩阵、文档向量表示和事务处理数据。

如果数据对象具有一组固定的数值属性,则数据对象可视为高维空间的点集,每个维度对应单个属性,这种数据集可以表达为一个m×n的矩阵,其中矩阵的每行代表一个对象,每列代表单个属性在数据集中的分布。这种表示方法称为数据矩阵,它通常呈现为表格形式(见图1-4)。;

图1-4各过程之间顺序及相互关系矩阵图;文档是单词的集合。如果统计文档中所有单词出现的频率,则一个文档可以被表示为一个向量,其长度是单词集的个数,每个分量记录单词集中每个单词在该文档中的频率。

事务处理数据是一类特殊的数据记录,每条记录都包含一组数据项。例如,一组超市购物的事务处理数据是(西瓜,梨子,苹果)、(洗发水,苹果,核桃,香蕉)、(香烟,西瓜,口香糖,笔记本,脸盆)。事务处理数据与数据矩阵的差别在于,事务处理数据的每条记

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档