- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark1.1.0发布各个模块得到全面升级.PDF
Spark 1.1.0发布:各个模块得到全面升级
Spark大数据博客 -
Spark 1.1.0发布:各个模块得到全面升级
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop
今天我很激动地宣布Spark 1.1.0发布了,Spark 1.1.0引入了许多新特征(new
features)包括了可扩展性和稳定性方面的提升。这篇文章主要是介绍了Spark 1.1.0主要的特性
,下面的介绍主要是根据各个特征重要性的优先级进行说明的。在接下来的两个星期内,我们将
会发表文章分别详细地介绍这些新组件,Spark 1.1已经在Databricks
Cloud可用,用户也可以在Apache Spark官方网站进行下载。
Spark SQL的成熟
Spark 1.1.0版本中对Spark 1.0中的Spark SQL进行了重大的更新。在Databricks公司,我们
已经将客户所有的workloads从Shark迁移到Spark SQL,全部有2X-5X的性能??升。 Spark 1.1
为Spark SQL添加了一个JDBC server,它是一个最要的特性,允许直接依赖JDBC对Shark安装版进
行更新。我们同时也开放了Spark SQL相应的系统API, 这允许大量的第三方数据源和Spark
SQL进行集成。这将提供为以后的集成提供了扩展点,比如Datastax Cassandra driver.
利用这些类型API,我们已经提供了对直接读取JSON到Spark内置的ShemaRDD的支持。如下:
# Create a JSON RDD in Python
people = sqlContext.jsonFile(“s3n://path/to/files...”)
# Visualize the inferred schema
people.printSchema()
# root
# |-- age: IntegerType
# |-- name: StringType
MLlib的扩展
Spark’s machine learning library adds several new algorithms, including a library for
standard exploratory statistics such as sampling, correlations, chi-squared tests, and
randomized inputs. This allows data scientists to avoid exporting data to single-node systems
(R, SciPy, etc) and instead directly operate on large scale datasets in Spark. Optimizations to
1 / 3
Spark 1.1.0发布:各个模块得到全面升级
Spark大数据博客 -
internal primitives provide a 2-5X performance improvement in most MLlib algorithms out of
the box. Decision trees, a popular algorithm, has been ported to Java and Python. Several
other algorithms have also been added, including TF-IDF, SVD via Lanczos, and nonnegative
matrix factorization. The next release of MLlib will introduce an enhanced API for end-to-end
machine learning pipelines.
Sources and Libraries for Spark Streaming
Spark streaming exte
您可能关注的文档
- SiemensPLMSoftware技术技巧及新闻.PDF
- SihidRCA模块.PDF
- simpana9.0 安装手册.pdf
- SimradOptronics.PDF
- SINGTAONEWSCORPORATIONLIMITED.PDF
- SI、区位码编码表.PDF
- SJL06 金融数据加密机.pdf
- SK-836网络摄像机说明书.PDF
- SM2082EGS.PDF
- SmartLubrication车辆解决方案内饰设计-智能科学推动提.PDF
- 初中秋季运动会开幕式班级方阵入场解说词.docx
- 人教版高中数学选择性必修三 精讲精练7.3 离散型随机变量的数字特征(原卷版).docx
- 人教版高中物理选择性必修三 同步精讲精练专题2.2 气体的等温变化(原卷版).docx
- 2025届吉林省长春市高三上学期质量监测(一)历史试卷.docx
- 3.6丝竹相和 课件-2024-2025学年高中音乐人音版(2019)必修 音乐鉴赏.pptx
- 云南省大理州2024-2025学年高三上学期第一次统一检测地理试题.docx
- 序篇 不忘初心(第一课时)课件-2024-2025学年高中音乐人音版(2019)必修 音乐鉴赏.pptx
- 2025届四川省泸州市合江县高三上学期一模语文试题.docx
- 2025届浙江省宁波市高三上学期一模技术试题-高中信息技术.docx
- 2025届浙江省台州市高三第一次教学质量评估语文试卷.docx
文档评论(0)