Spark1.1.0发布各个模块得到全面升级.PDF

Spark1.1.0发布各个模块得到全面升级.PDF

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark1.1.0发布各个模块得到全面升级.PDF

Spark 1.1.0发布:各个模块得到全面升级 Spark大数据博客 - Spark 1.1.0发布:各个模块得到全面升级 如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 今天我很激动地宣布Spark 1.1.0发布了,Spark 1.1.0引入了许多新特征(new features)包括了可扩展性和稳定性方面的提升。这篇文章主要是介绍了Spark 1.1.0主要的特性 ,下面的介绍主要是根据各个特征重要性的优先级进行说明的。在接下来的两个星期内,我们将 会发表文章分别详细地介绍这些新组件,Spark 1.1已经在Databricks Cloud可用,用户也可以在Apache Spark官方网站进行下载。 Spark SQL的成熟 Spark 1.1.0版本中对Spark 1.0中的Spark SQL进行了重大的更新。在Databricks公司,我们 已经将客户所有的workloads从Shark迁移到Spark SQL,全部有2X-5X的性能??升。 Spark 1.1 为Spark SQL添加了一个JDBC server,它是一个最要的特性,允许直接依赖JDBC对Shark安装版进 行更新。我们同时也开放了Spark SQL相应的系统API, 这允许大量的第三方数据源和Spark SQL进行集成。这将提供为以后的集成提供了扩展点,比如Datastax Cassandra driver. 利用这些类型API,我们已经提供了对直接读取JSON到Spark内置的ShemaRDD的支持。如下: # Create a JSON RDD in Python people = sqlContext.jsonFile(“s3n://path/to/files...”) # Visualize the inferred schema people.printSchema() # root # |-- age: IntegerType # |-- name: StringType MLlib的扩展 Spark’s machine learning library adds several new algorithms, including a library for standard exploratory statistics such as sampling, correlations, chi-squared tests, and randomized inputs. This allows data scientists to avoid exporting data to single-node systems (R, SciPy, etc) and instead directly operate on large scale datasets in Spark. Optimizations to 1 / 3 Spark 1.1.0发布:各个模块得到全面升级 Spark大数据博客 - internal primitives provide a 2-5X performance improvement in most MLlib algorithms out of the box. Decision trees, a popular algorithm, has been ported to Java and Python. Several other algorithms have also been added, including TF-IDF, SVD via Lanczos, and nonnegative matrix factorization. The next release of MLlib will introduce an enhanced API for end-to-end machine learning pipelines. Sources and Libraries for Spark Streaming Spark streaming exte

文档评论(0)

tangtianxu1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档