大数据研究常用软件工具与应用场景.pdf

大数据研究常用软件工具与应用场景.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
盘点:大数据研究常用软件工具与应用场景 论文类别:计算机 - 互联网研究 上传时间:2015/9/25 16:17:00 论文作者:未知 (中讯)如今,大数据日益成为研究行业的重要研究目标。面对其高数据量、 多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应 对。 工欲善其事,必先利其器。众多新的软件分析工具作为深入大数据洞察研究 的重要助力,也成为数据科学家所必须掌握的知识技能。 然而,现实情况的复杂性决定了并不存在解决一切问题的终极工具。实际研 究过程中,需要根据实际情况灵活选择最合适的工具(甚至多种工具组合使 用),才能更好的完成研究探索。 为此,本文针对研究人员(非技术人员)的实际情况,介绍当前大数据研究涉 及的一些主要工具软件(因为相关软件众多,只介绍常用的),并进一步阐述其 应用特点和适合的场景,以便于研究人员能有的放矢的学习和使用。 【基础篇】 1 传统分析/商业统计 Excel、SPSS、SAS这三者对于研究人员而言并不陌生。 ◆Excel作为电子表格软件,适合简单统计(分组/求和等)需求,由于其方便 好用,功能也能满足很多场景需要,所以实际成为研究人员最常用的软件工 具。其缺点在于功能单一,且可处理数据规模小(这一点让很多研究人员尤为头 疼)。这两年Excel在大数据方面(如地理可视化和网络关系分析)上也作出了一 些增强,但应用能力有限。 SPSS(SPSS Statistics)和SAS作为商业统计软件,提供研究常用的经典统计 分析(如回归、方差、因子、多变量分析等)处理。 ◆SPSS轻量、易于使用,但功能相对较少,适合常规基本统计分析 ◆SAS功能丰富而强大(包括绘图能力),且支持编程扩展其分析能力,适合 复杂与高要求的统计性分析。 上述三个软件在面对大数据环境出现了各种不适,具体不再赘述。但这并不 代表其没有使用价值。如果使用传统研究方法论分析大数据时,海量原始数据 资源经过前期处理(如降维和统计汇总等)得到的中间研究结果,就很适合使用 它们进行进一步研究。 2 数据挖掘 数据挖掘作为大数据应用的重要领域,在传统统计分析基础上,更强调提供 机器学习的方法,关注高维空间下复杂数据关联关系和推演能力。代表是SPSS Modeler(注意不是SPSS Statistics,其前身为Clementine) SPSS Modeler 的统计功能相对有限,主要是提供面向商业挖掘的机器学习算 法(决策树、神经元网络、分类、聚类和预测等)的实现。同时,其数据预处理 和结果辅助分析方面也相当方便,这一点尤其适合商业环境下的快速挖掘。不 过就处理能力而言,实际感觉难以应对亿级以上的数据规模。 另一个商业软件Matlab也能提供大量数据挖掘的算法,但其特性更关注科学 与工程计算领域。而著名的开源数据挖掘软件Weka,功能较少,且数据预处理 和结果分析也比较麻烦,更适合学术界或有数据预处理能力的使用者。 【中级篇】 1、通用大数据可视化分析 近两年来出现了许多面向大数据、具备可视化能力的分析工具,在商业研究 领域,TableAU无疑是卓越代表。 TableAU 的优势主要在于支持多种大数据源/格式,众多的可视化图表类型, 加上拖拽式的使用方式,上手快,非常适合研究员使用,能够涵盖大部分分析 研究的场景。不过要注意,其并不能提供经典统计和机器学习算法支持,因此 其可以替代Excel,但不能代替统计和数据挖掘软件。另外,就实际处理速度 而言,感觉面对较大数据(实例超过3000万记录)时,并没有官方介绍的那么迅 速。 2、关系分析 关系分析是大数据环境下的一个新的分析热点(比如信息传播图、社交关系网 等),其本质计算的是点之间的关联关系。相关工具中,适合数据研究人员的是 一些可视化的轻量桌面型工具,最常用的是Gephi。 Gephi是免费软件,擅长解决图网络分析的很多需求,其插件众多,功能强 且易用。我们经常看到的各种社交关系/传播谱图,很多都是基于其力导向图 (Force directed graph)功能生成。但由于其由java编写,限制了处理性能 (感觉处理超过10万节点/边时常陷入假死),如分析百万级节点(如微博热点传 播路径)关系时,需先做平滑和剪枝处理。而要处理更大规模(如亿级以上)的关 系网络(如社交网络关系)数据,则需要专门的图关系数据库(如 GraphLab/GraphX)来支撑了,其技术要求较高,此处不再介绍。 3、时空数据分析 当前很多

文档评论(0)

10301556 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档