网站大量收购独家精品文档,联系QQ:2885784924

大数据分析常用软件工具综述[权威资料].doc

大数据分析常用软件工具综述[权威资料].doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据分析常用软件工具综述[权威资料] 大数据分析常用软件工具综述 摘要:数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。在大数据时代已经到来的时候,要用大数据思维和工具去发掘大数据的潜在价值。面对高数据量、高维度与异构化的特点,以及分析方法思路的转变,传统统计工具已经难以应对。众多新的软件分析工具作为深入大数据洞察研究的重要助力,已成为数据科学家必须掌握的知识技能。 关键词:大数据 数据挖掘 软件工具 TP301 A 1007-9416(2015)11-0000-00 在维克托?迈尔-舍恩伯格及肯尼斯?库克耶编写的《大数据时代》[1],,中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从某种程度上说,大数据是数据分析的前沿技术。本文针对数据分析与数据挖掘研究人员的实际情况,介绍当前大数据研究涉及的一些主要工具软件。 1传统分析及商业统计 传统数据分析最广泛使用的软件工具是Excel。作为电子表格软件,适合简单统计需求,其内置的数据分析工具箱不仅方便好用,功能也能基本齐全。其自带的数据分析功能也可以完成专业数据分析工作,比如:描述性统计、相关系数、概率分布、均值推断、线性、非线性回归、多元回归分析、时间序列等内容。其缺点在于功能单一,处理数据规模小,不能海量数据分析,作图功能也相对较差。 SPSS是一款商业统计分析软件,它轻量、易于使用,SPSS是世界上最早采用图形菜单驱动界面的统计软件,操作界面友好,输出结果美观。SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。 SAS统计分析软件,功能丰富,具有强大绘图能力,且支持编程扩展其分析能力,适合复杂与高要求的统计性分析。它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。 上述三种软件应对传统数据分析绰绰有余,但在面对大数据环境则出现了各种不适应。大数据的海量原始数据需要经过降维和统计汇总才可使用这些进行研究。 2通用大数据可视化分析 近两年来出现了许多面向大数据、具备可视化能力的分析工具,在商业研究领域,Tableau是卓越代表。其能帮助人们看清并理解数据,不同个体快速且简便的分析、可视化和分享信息,能够将数据图片转化为数据库查询。Tableau 的优势主要在于支持多种大数据源和可视化图表类型,拖拽式的使用方式,非常适合研究员使用。 3关系分析 关系分析是大数据环境下的一个新的分析热点(比如信息传播图、社交关系网等),其本质计算的是点之间的关联关系。大数据的意义在于从海量的数据里寻找出一定的相关性,寻找的就是非相关数据的相关性。相关工具中,适合数据研究人员的是一些可视化的轻量桌面型工具,最常用的是Gephi。Gephi主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具,依赖于它的APIs,开发者可以编写自己感兴趣的插件,创建新的功能。 4时空数据分析 数据量越来越大,人们对时空数据的实时处理和探索显得越加困难。如果要分析千万级以上的时空数据,比如新浪微博上亿用户发文的时间、地理分布、发布设备等,涉及到了各个维度上的聚合统计,并且在时间和空间维度还涉及到了不同的粒度。为了支持多维度、多粒度时空数据的实时聚合分析,可使用 NanoCubes,以对高维多粒度的时空数据进行高效的存储和检索,提供对亿级时空数据的快速展示和多级实时钻取探索分析。 5 大数据处理编程语言 前面介绍的各种大数据分析工具,可应对的数据都在亿级以下,也以结构化数据为主。当面临亿级以上、半实时性处理、非标准化复杂需求,通常就需要借助编程(甚至借助于Hadoop/Spark等分布式计算框架)来完成相关的分析。 R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R语言是最适合统计研究背景的人员学习,具有丰富的统计分析功能库以及可视化绘图函数可以直接调用。通过Hadoop-R更可支持处理百亿级别的数据。 此外,Python语言在大数据处理的应用也不可忽视,Python与R相比速度要更快,Python可以直接处理上G的数据;R分析数据时则需要先通过数据库把大数据转化为小数据才能交给R做分析。在某些分析领域,Python代替R的趋势逐渐显现。 6 结语 大数据日益成为数据分析研究行业的热点研究方向。面对其高数据量、多维度与异构化的特点,传统统计工具已经难以应对。本文

您可能关注的文档

文档评论(0)

大头大头 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档