大数据可视化剖析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据可视化剖析

大数据可视化剖析   摘要:人类利用形象思维获取视觉符号中所蕴含的信息并发现规律,进而获得科学发现。文章介绍科学可视化、信息可视化和数据可视化的内涵,阐述大数据可视化分析方法。   关键词:大数据;可视化分析;并行计算   0 引 言   人类的创造性不仅取决于逻辑思维,还与形象思维密切相关。人类利用形象思维将数据映射为形象视觉符号,从中发现规律,进而获得科学发现。期间,可视化关键技术对重大科学发现起到重要作用。在大数据时代,大数据可视化分析的研究与发展将为科学新发现创造新的手段和条件。   数据可视化于20世纪50年代出现,典型例子是利用计算机创造出了图形图表。1987年,布鲁斯?麦考梅克等撰写的《Visualization inScientific Computing》促进了可视化技术的发展,将科学计算中的可视化称之为科学可视化。20世纪90年代初期,出现了信息可视化。目前将科学可视化与信息可视化都归为数据可视化。   2 科学可视化   2.1 问题的提出   传统的科学可视化技术已成功应用于各学科领域,但如果将其直接应用于大数据,将面临实用性和有效性问题,这说明需要对科学可视化技术重新审视与深入研究。   2.2 分布式并行可视化算法   可扩展性是构造分布式并行算法的一项重要指标。传统的科学可视化算法应用在小规模的计算机集群中,最多可以包括几百个计算节点,而实际应用是要在数千甚至上万个计算节点上运行。随着数据规模的逐渐增大,算法的效率逐渐成为数据分析流程的瓶颈,设计新的分布并行可视化算法已经成为一个研究热点。   2.2.1 并行图像合成算法   传统的并行图像合成算法主要包括前分割算法、中间分割算法和后分割算法3种类型,前分割算法主要分为如下3步骤:   (I)将数据分割并分配到每个计算节点上;   (2)每个计算节点独立绘制分配到的数据,在这一步,节点之间不需要数据交换:   (3)将计算节点各自绘制的图形汇总,合成最终的完整图形。   从上述步骤中可以看出,由于节点之间可能需要大量的数据交换,尤其是步骤(3)可能成为算法的瓶颈。解决这个问题的关键是减少计算节点之间的通信开销,可以通过对数据进行划分并在各计算节点间进行分配来实现。划分和分配方案需要与数据的访问一致,原则是计算节点只使用驻留本计算节点的数据进行跟踪,从而减少数据交换。   2.2.2 并行颗粒跟踪算法的研究   传统的科学可视化研究对象主要集中在三维标量场数据。在科学大数据中,经常使用三维流场数据,其原因如下所述。   将二维的流场可视化方法直接应用在三维流的结构不可能都成功,每个颗粒虽然可以单独跟踪,但是可能出现在空间中的任何一个位置,这就需要计算节点之间通过通信交换颗粒。同时,当大量的颗粒在空间移动时,每个计算节点可能处理不同数量的颗粒,从而造成计算量严重失衡。解决这些问题的关键是减少计算节点之间的通信开销,其基本思路同并行图像合成算法。   2.2.3重要信息的提取与显示技术   科学大数据可视化的另一个重要研究方向是如何从数据中快速有效地提取重要信息,并且用这些重要信息来指导可视化的生成。从可视化的角度来看,一方面需要可视化设计表达数据中特定信息的定义,通过人机交互工具,由用户来调整参数,观察和挖掘数据中的重要信息;另一方面需要根据用户的反馈信息调整可视化,以更好地突显重要信息,淡化非重要信息,方便用户对重要信息及其背景的观测。整个信息的提取过程是个典型的交互式可视分析过程。基于这一思想的两个技术是流场可视化的层次流线束技术和用于标量数据的基于距离场的可视化技术。   2.2.4原位可视化   传统的科学可视化采用科学计算后进行处理的模式。随着计算机系统计算速度的提高,I/O速度与计算速度之间的差距增大。随着计算规模越来越大,而相应生成的数据规模也越来越大,现有的存储系统无法把所有的计算数据都保存下来。解决上述问题的常用方法是采用空间或者时间上的采样方法,最后只保存部分数据,造成结果数据的丢失,不能保证高精度数值模拟。   原位可视化的基本思想是:   (1)将可视化与科学模拟集成在一起。在科学模拟的过程中,每个时间片的结果生成之后,可以立刻调用可视化模块,直接与科学模拟程序集成。为了减少数据的冗余,可视化程序与科学模拟程序共享数据结构。   (2)由于数据的分割和分配优先满足科学模拟的需求,可视化程序的工作分配有可能是不均衡的,需要重现可视化的工作量在各个计算节点上分配算法,减少数据传输。   (3)可视化程序的开销不能太高,要保持集成系统的高效能,必须提高可视化程序的效率,其可扩展性必须与科学模拟一致,可以应用上万个、上10万个或更多的计算节点。   3 信息可视化   自18

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档