基于Spark构建数据分析系统-习题 基于Spark构建数据分析系统-习题 11.2 了解数据可视化.docxVIP

基于Spark构建数据分析系统-习题 基于Spark构建数据分析系统-习题 11.2 了解数据可视化.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 130 大数据构建与应用 单元11 学情分析案例 单元介绍 学勤分析是目前大数据应用的一个典型案例,通过前面几章的学习,我们已经基本掌握了Hadoop离线分析的平台的相关概念和主要技术应用,本章我们将通过案例的方式,为大家提供一个简单的学勤分析案例,并通过已部署完成的Hadoop平台来实现分布式计算,对学生成绩进行简单分析。 学习任务 本章我们将通过编写一个简单案例,对美国中学生的学习成绩数据进行分析,实现分析每个学校、每个州成绩的成绩情况,本案例中将用到的技术和语言主要有:Hadoop、MapReduce、Hive、Python以及数据可视化D3.JS。 通过这个简单的案例项目,我们能够掌握Hadoop数据分析的方法,能够自主编写简单的数据分析脚本或程序来对复杂、庞大的数据进行可视化分析。 任务11.2了解数据可视化 【任务分析】 数据可视化在大数据领域也是一门热议话题,数据可视化是指将数据或信息进行编码,通过图形、图像的方式直观地展现出来,从而清晰有效地传递信息,影响决策。与其说这事一门大数据学科,更不如说它是一门艺术。 【相关知识】 数据可视化被许多学科作为一个现代的等价视觉传达艺术,它设计视觉表达的艺术创作以及对数据的直观表示。数据可视化是一门艺术与和科学相结合的学科,一般来说,它是描述性统计学的一个分支。下图是数据可视化研究的基本步骤: 如何优雅地展示数据 Fernanda Viegas(巴西著名可视化科学家)和Martin M. Wattenberg(Google大数据科学家)都曾提到过,理想的数据可视化不仅要清楚地表达数据所表达的意义,同样需要刺激观众(用户)的参与与关注。数据展示是一门艺术,单从“表述信息”来看,显得有些枯燥、乏味,例如我们使用的Excel表格,就是最简单的数据可视化,但这样的数据会让人感到无从下手,提不起兴趣,不利于沟通从而误导决策。 这里我们看一下风靡网络的Facebook全球热度图: Facebook全球热度图是Facebook的一名实习生的作品,他通过从Facebook的数据仓库(Facebook Data Warehouse Hive)中抽取1000万组朋友的信息,其中包括用户现在的城市信息,两个城市之间朋友的数据之和,并为这些信息添加了经纬度。 利用这些原始数据,他使用一个开源统计分析软件R来做数据挖掘。为了得到更好的数据展示挖掘效果,他还为每对城市定义了一个“权重值”,再根据“权重值”来画线,两个城市“朋友对”的个数越多,该线条将置于别的线条之上。再经过一系列美化,Facebook全球热度图就完成了。 我们从“表述信息”的角度来看这张图,这张图给我们的详细数据非常少,几乎为零,但我们却能从这张图中很直观的看到Facebook用户的活跃区域、Facebook全球影响力、全球主要关系网等。 如果不是以这种方式,而是通过柱状图、饼图等方式展现,那么,这张图就不可能风靡网络。反观,如果我们需要对一个公司的业绩、销量等信息进行评估,那么,这张图就显得格格不入。其实,一组数据的可视化是否优雅,主要还是需要根据具体业务来设计图表类型,而对于一些复杂的业务(如社交系统、用户画像等)我们就需要从艺术的角度去考量优雅的表现形式了。 数据可视化图表类型 对于简单的业务需求,我们并不需要绘制诸如“Facebook全球热度图”那样富有艺术感的可视化展示图,下表提供了常用的可视化图表及说明,我们可以根据实际业务内容,来选择相应的图表类型进行可视化。 图例 名称 可视化内容 一般用途 直方图 长度 计量值 颜色 类别 价值度直观比较,例如销售业绩、学生成绩、变化率等。 散点图 X轴的位置 Y轴的位置 颜色 尺寸 用于确定线性或非线性关系,例如股市的涨跌变化、失业率和通胀时段关系等。 网络图 节点的颜色 节点的大小 空间厚度 联系数量 一般用于社交领域,通过网络图可以确定出公众影响力任务,销售活动等。 流图 波动宽度 波动频率 颜色 时间变化 用于测量周期内数值的变动频率、例如测量天气温度变化、地热变化等。 矩形树图 矩形大小 颜色 磁盘文件的分布、空间占用率。 甘特图 颜色 时间 百分比 项目计划、进度。 热地图 行 关系线 群组 颜色 分析风险指数以及影响因素。 数据可视化工具 总体来说,数据可视化工具分为基于客户端框架和基于Web浏览器两类,它们各有各的优势,基于浏览器的实现相对简单,但对于超大、特大级别数据处理会显得比较鸡肋,基于客户端框架的工具性能上会比基于浏览器的高出相当一大截,并且有强大的社区或公司支撑,相对来说,学习成本较高,不适用于快速开发中。两类数据可视化工具适用于不同场景,在数据可视化领域发挥着至关重要的作用。以下是一些常用的数据可视化工具,供参考。 R R是目前应用最

您可能关注的文档

文档评论(0)

WanDocx + 关注
实名认证
文档贡献者

大部分文档都有全套资料,如需打包优惠下载,请留言联系。 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档