- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark1.1.0发布各个模块得到全面升级.PDF
Spark 1.1.0发布:各个模块得到全面升级
Spark大数据博客 -
Spark 1.1.0发布:各个模块得到全面升级
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop
今天我很激动地宣布Spark 1.1.0发布了,Spark 1.1.0引入了许多新特征(new
features)包括了可扩展性和稳定性方面的提升。这篇文章主要是介绍了Spark 1.1.0主要的特性
,下面的介绍主要是根据各个特征重要性的优先级进行说明的。在接下来的两个星期内,我们将
会发表文章分别详细地介绍这些新组件,Spark 1.1已经在Databricks
Cloud可用,用户也可以在Apache Spark官方网站进行下载。
Spark SQL的成熟
Spark 1.1.0版本中对Spark 1.0中的Spark SQL进行了重大的更新。在Databricks公司,我们
已经将客户所有的workloads从Shark迁移到Spark SQL,全部有2X-5X的性能??升。 Spark 1.1
为Spark SQL添加了一个JDBC server,它是一个最要的特性,允许直接依赖JDBC对Shark安装版进
行更新。我们同时也开放了Spark SQL相应的系统API, 这允许大量的第三方数据源和Spark
SQL进行集成。这将提供为以后的集成提供了扩展点,比如Datastax Cassandra driver.
利用这些类型API,我们已经提供了对直接读取JSON到Spark内置的ShemaRDD的支持。如下:
# Create a JSON RDD in Python
people = sqlContext.jsonFile(“s3n://path/to/files...”)
# Visualize the inferred schema
people.printSchema()
# root
# |-- age: IntegerType
# |-- name: StringType
MLlib的扩展
Spark’s machine learning library adds several new algorithms, including a library for
standard exploratory statistics such as sampling, correlations, chi-squared tests, and
randomized inputs. This allows data scientists to avoid exporting data to single-node systems
(R, SciPy, etc) and instead directly operate on large scale datasets in Spark. Optimizations to
1 / 3
Spark 1.1.0发布:各个模块得到全面升级
Spark大数据博客 -
internal primitives provide a 2-5X performance improvement in most MLlib algorithms out of
the box. Decision trees, a popular algorithm, has been ported to Java and Python. Several
other algorithms have also been added, including TF-IDF, SVD via Lanczos, and nonnegative
matrix factorization. The next release of MLlib will introduce an enhanced API for end-to-end
machine learning pipelines.
Sources and Libraries for Spark Streaming
Spark streaming exte
文档评论(0)