- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据的最后一公里——数据可视化技术
作者:黄玺磊
来源:《中国金融电脑》2017年第2期
中国工商银行软件开发中心上海研发部黄玺磊
在金融行业中,将大数据技术运用在辅助决策、风险防控、客户画像、反欺诈等领域已经
十分常见。在大数据技术价值链中,数据展现处在链条的末端,直接作用于最终用户决策的过
程中,正是整个大数据技术的“最后一公里”。在各种数据展现方法中,数据可视化技术是最
容易为人类所接受的表现形式。因此数据可视化技术的优劣将直接影响数据的最终应用与决策。
一、数据可视化技术与传统图表比较
与数据可视化技术相比,常规的图表与图形仅仅能展现一两个维度的数据,数据的理解接
受效率一般。如用常规柱状图表现的中国全部省级省级行政区数据,有时连文字都无法较好地
展现(如图1所示)。
可视化技术在形式上能够灵活组合多维度数据描述数据场景(如地理位置与数值等结合分
析),来提高同一幅图形上的数据容量并作多维结合分析。如相同的数据,以地图结合色度展
现则十分清晰(如图2所示)。同时,可视化技术能够以模式化图形(如股票K线图)来提供
更高的数据阅读理解速度(如图3所示)。
人类在漫长的大自然进化选择淘汰过程中积累了不少的视觉带宽优势,草原环境中的狮子,
人眼识别十分迅速,而目前机器算法在场景识别上仍较困难(如图4所示)。因此,使用可视
化技术较文字与数据表格等形式,更能够充分发挥人类的视觉带宽优势。
二、数据可视化技术概述
1.数据可视化定义
数据可视化是一种通过将数据编码为可视对象如点、线、颜色、位置关系、动态效果等,
并将对象组成图形来传递数据信息的技术。其目的是以清晰且高效的方式将信息传递给用户,
是利用人眼的感知能力对数据进行交互的可视化表达以增强数据认知的技术。笔者认为:数据
可视化是一种充分利用人类视觉带宽(包括人机交互行为中的动态视觉)来提升人类数据理解
能力、协助数据思考决策的技术。
2.数据展现的发展历史
在人类数据展现技术的历史中,以行列方式组织的数据表格出现在约公元2世纪时。古罗
马天文学家克劳狄乌斯·托勒密在其所著的长达13卷的《天文学大成》中发展了地心说,并
详细记述了恒、行星运动及日、月蚀等的计算过程。他又从中选取了最有用的天文学计算内容,
以表格形式重新出版为《实用天文表》(HandyBook)。这个表格式手册非常有名,从希腊文翻
译成拉丁文、阿拉伯文、波斯语和梵文,从手抄变成机器印刷,传播了十几个世纪,远比《天
文学大成》的传播范围广。
但以图形的方式来表现定量信息,直到17世纪才出现。这应归功于法国哲学家与数学家
笛卡尔,是他首先在数学中发明了二维坐标系统。18世纪后半叶,苏格兰工程师与经济学家
WilliamPlayfair发明了许多至今我们仍常用的图形形式。他最早发明了从左至右的折线图来
表现时间上的数值变化,又发明了柱状图,并在他离世前发明了饼图。
这些量化数据的图形逐步发展,但直到20世纪上半叶,这些方法本身并没有太大的进化。
1967年,JacquesBertin出版的《图像符号学》成为了后续可视化发展的奠基石,因为在这
本书中他描述了信息可视化表达的直觉性、清晰性、精确性和效率性。1977年,普林斯顿大学
统计学教授约翰·图基在真正意义上带来了可视化在定量数据表达上的能力,他建立了一种称
为EDA探索性数据分析的新统计模式,并将可视化技术运用其中。1983年,著名的Edward
Tufte编写了开创性的著作TheVisualDisplayofQuantitativeInformation,书中他提
出了有效表达数据的“数据油墨比”的说法,并指出过去在可视化上的低效作法(数据油墨比=
用于展现数据的墨水/图形上所使用的总墨水量=用于展现数据信息的不可再减少的墨水比例
=1.0-图形上可被删去的墨水比例,如图5所示)。随即不久之后,被称为“信息可视化”的
学科正式进入了学术界中。21世纪,数据可视化已经被通俗化,但同时由于在商业软件(如
Excel)中的固化图表形式,数据表达常常很低效。值得庆幸的是,随着大数据、开源软件、前
端浏览器等业界理念/技术的发展,数据可视化又重新以更丰富、更有力的形式回到人们的视
野。
三、数据可视化设计特性
优秀的可视化设计特性包括“油墨比”高效、视角清晰、组合维度、对比恰当、动态可交
互等,从而充分利用人类的视觉带宽,提升用户对数据
文档评论(0)