R已对大数据做好了准备.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
R已对大数据做好了准备 作者:中国商业智能网????来源:本站原创????点击数: 267????时间:2012-7-4/Article/binews/201207/2193.html 【摘要】早在1960年代学术界和企业引进主机时,统计分析就已出现了。 早在1960年代学术界和企业引进主机时,统计分析就已出现了。 但今天的系统所收集的多样性,从中筛选出洞察力的需要和日渐流行的开源替代方案让R编程语言转向统计分析和可视化。它的新名字是在统计上的红帽子(Red Hat)。 每个人都喜欢R语言,尤其是那些销售大数据产品,如数据仓库和Hadoop数据处理器者。 部分原因是R是一种开源软件,从能够引导其发展的大型和智慧的统计学家和定量分析师的社区获得信息输入。 初创工具 专有工具商,像SAS研究所和SPSS在大型机时代创造的专有分析软件,可不是这样。这包括它们在随后的分布式计算时代的产品。 正如Linux可以被认为是Unix的一种开源模拟, R编程语言很多是借鉴了S语言。 它于1976年由John Chambers在Bell实验室所创,是一种对价格昂贵,但也很受尊重的十年前出现的SPSS和SAS工具的反应。 S根本是VAX和Unix小型机时代的产物,而R是PC和Linux时代的产品。 R语言于1996年由新西兰奥克兰大学的两位统计教授Ross Ihaka 和 Robert Gentleman创立,他们仍然是R开发团队的核心成员。(顺便说一下,S语言的创立者Chambers也是,而S的一些数据处理程序在R环境中的运行并未改变并非偶然)。 R可以被认为是S的一种现代的实施,由一家名为洞察力(Insightful)公司所创立的S-PLUS也能如此, 该公司在2004年被授权了Lucent Technologies的S,并于2008年被Tibco软件呑并。 革命的到来 与S和一定程度上S-PLUS不同,R不仅仅是一些创建于象牙塔的代码。 它是统计学家和编码员社区的产品,这个社区创造了2500多个插件以处理各种数据集和做统计分析,专门针对特定数据类型或行业。 R为全球二百多万的数量分析师所用,据成立于2007年创建一种并行运行R的革命分析(Revolution Analytics)估计。 自那以来,该公司对R采取了开源的方法,提供开源软件包的商业支持,而同时扩展R环境以更好的运行在计算机集群上并与Hadoop集群相连。 到目前为止,没有人商业化PSPP开源来替代SPSS (被IBM在2009年7月收购), 但如果PSSP成熟,在某一时刻发生这样的事情并不会让人吃惊。  革命分析(Revolution Analytics)2008年从英特尔资本得到一些种子资金和在2009年得到900万的创业资金后在R企业分布中兜售R的专有扩展并未真正使R社区高兴。 自那以后,革命分析(Revolution Analytics)并行了基础的R统计引擎,以便它更好地运行在多核/多线程处理器和跨服务器集群上,添加了一个名为XDF的像 NoSQL一样的格式以帮助数据集的并行化,并增加了对本地SAS文件格式支持并转换成XDF 最近它已经调整了其R的安装,好让Hadoop集群中的每个节点都可以在Hadoop分布式文件系统中数据存储的本地Hadoop集群上以运行R分析,然后聚合这些计算结果,就像MapReduce对非结构化数据的操作。 革命分析(Revolution Analytics)在过去的几年中在R上获得了大量的能量。但其他公司正在做有趣的事, 将R工具与他们自己的产品结合,并让分析师在堆积如山的数据中寻找答案变得更容易。 平行的空间 为在数据仓库领域寻求某种优于其对手的优势,Netezza在2010年2月开启了Netezza软件堆栈。 Netezza是一家基于高度定制和并行的PostgreSQL数据库版本数据仓库制造商, 他们使用现场可编程门阵列(FPGAs)来提高它在x86集群上运行的性能。 Netezza在一套API上开放其软件开发环境,允许SAS和R算法并行运行在它的仓库设备上。 它也同样提供对Java、c++、Fortran或Python应用程序的接口,以连到数据仓库并用现场可编程门阵列(FPGAs)来提取存储在数据仓库的数据,而不是使用SQL数据库查询语言。 七个月后, 大数据确定无疑成为大业务时,IBM私下以17亿美元兼并了 Netezza。 2010年10月, 数据仓库制造商Teradata在它同名数据仓库内添加了自己的被称为TeradataR的数据库内分析的组件。 它使Teradata数据仓库挖掘工具转换为一个R控制台插件,允许Teradata数据库里有44种不同的分析功能,以及数据仓库中的任何存储过程都会接触到R和从R程序中调用。有另

文档评论(0)

yan698698 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档