- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
比拼生态和将来,Spark和Flink哪家强?
Flink 也是 Apache 顶级项目,创始者们成立了 Data Artisans。社区规模还无法和 Spark 相比。不过在业界,特殊是流处理方面,有不错的口碑。在大规模流处理方面走在最前沿,也是需求最强的几个美国公司,包括 Netflix、 LinkedIn、Uber、Lyft 等,除 LinkedIn 有本人的 Samza 外,都已经接受 Flink 作为流处理引擎或者有了较大投入。
阿里集团在 Flink 社区也有较大影响力。最近 Flink 1.3 到 1.5 里都有几个重磅功能是阿里和 Data Artisans 合作或者独立开发的。阿里还有可能是世界上最大的流计算集群,也是在 Flink 的基础上开发的。
Spark 是最活跃的 Apache 项目之一。从 2021 年左右开头得到广泛关注。Spark 的开源社区一度达到上千的活跃贡献者。最次要推动者是 Databricks,由最后的 Spark 制造者们成立的公司。今年 6 月的 Spark+AI 峰会参与人数超过 4000。 Spark 由于在引擎方面比 MapReduce 全面占优,经过几年进展和 Hadoop 生态结合较好,已经被广泛视为 Hadoop MapReduce 引擎的取代者。
Unified Analytic platform
最近的 Spark+AI 峰会上, Databricks 主打的主题是统一分析平台(Unified Analytics Platform)。三大新发布:Databricks delta、Databricks Runtime for ML和 ML flow,都是围绕这一主题。随着近年来机器学习(包括深度学习)在数据处理中占比越来越高,可以说 Databricks 又一次把握住了时代的脉搏。
统一分析平台回应了 Spark 的初衷。经过几年的探究,对初始问题,即用户可以在一个系统里处理绝大部分大数据的需求,有了一个比较明确具体的处理方案。
不过有意思的是可以看出 Databricks 在 AI 方面策略的转变。在深度学习流行前,Spark 自带的 MLLib 功能上应当是够用的,但是可能是由于兼容性缘由并没有取得预期中的广泛接受。
对深度学习的新宠 TensorFlow,Spark 已经推出过 TensorFrames 和 Spark 引擎做了一些集成。结果应当不是很成功,可能还没有 Yahoo 从外面搭建的 TensorFlowOnSpark 影响力大。
从这次来看,Spark 转向了集成的策略。Databricks Runtime for ML 实际上就是预装了各个机器学习框架,然后支持在 Spark 任务里启动一个比如 TensorFlow 本人的集群。Spark 引擎方面做的次要改进就是 gang scheduling,即支持一次申请多个 executor 以便 TensorFlow 集群能正常启动。
MLFlow 更是和 Spark 引擎无关。作为一个工作流工具,MLFlow 的目标是挂念数据科学家提高工作效率。次要功能是以项目为单位记录和管理所做的机器学习试验,并支持共享。设计要点是可反复试验,以及对各种工具的机警易用的支持。看起来 Spark 临时在作为 AI 引擎方面可能没什么大动作了。
Flink 的目标其实和 Spark 很相像。包含 AI 的统一平台也是 Flink 的进展方向。Flink 从技术上也是可以支持较好的机器学习集成和整条链路的,而且有一些大规模线上学习的使用实例。不过看起来在现阶段 Flink 这方面的平台化还没有 Spark 成熟。值得一提的是 Flink 由于流处理引擎的优势,在线上学习方面可能能支持得更好一些。
数据使用者
产品和生态归根结底是要处理大数据使用者的问题,从数据中产生价值。了解数据的使用者和他们的需求可以挂念我们在在争辩生态的各方面时有一个比较清楚的脉络。
数据相关的工作者大致可以分为以下角色。实际情况中一个组织里很可能几个角色在人员上是重合的。各个角色也没有公认的定义和明确的界限。
数据采集:在产品和系统中合适的地方产生或收集数据发送到数据平台。
平台:供应数据导入,存储,计算的环境和工具等等。
数据工程师:使用数据平台把原始数据加工成可以供后续高效使用的数据集。把分析师和数据科学家创建的目标和模型等等生产化成为高效牢靠的的自动处理。
数据分析师和数据科学家(关于这两者的异同有很多争辩。感爱好的可以自行搜索。/p/cfd94d9e4466?这里的译文可以供应一个视角):为数据赐予意义,发觉内含的价值。 下文再不特殊区分的地方统称为数据分析。
产品经理,管理和决策层:依据以上产生的数据调整产品和组织行为。
这些构成了一个
原创力文档


文档评论(0)