5速来!数据科学工具包几百种工具经典收藏版!.doc

下载文档 降价啦

7
0
约1.73万字
约 28页
2018-01-24 发布于浙江
举报
版权申诉
保障服务

5速来!数据科学工具包几百种工具经典收藏版!.doc

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

5速来!数据科学工具包几百种工具经典收藏版!

速来！数据科学工具包-几百种工具-经典收藏版！? 一、数据科学工具包数据科学融合了多门学科并且建立在这些学科的理论和技术之上，包括数学、概率模型、统计学、机器学习、数据仓库、可视化等。在实际应用中，数据科学包括数据的收集、清洗、分析、可视化以及数据应用整个迭代过程，最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家。数据科学家有其独特的基本思路与常用工具，秦陇纪全面梳理数据分析师和数据科学家使用的工具包，包括开源的技术平台相关工具、挖掘分析处理工具、其它常见工具等几百种，几十个大类，部分网址，欢迎大家积极传播！数据科学家是有着开阔视野的复合型人才，他们既有坚实的数据科学基础，如数学、统计学、计算机学等，又具备广泛的业务知识和经验数据科学家通过精深的技术和专业知识在某些科学学科领域解决复杂的数据问题，从而制定出适合不同决策人员的大数据计划和策略。数据分析师和数据科学家使用的工具在网上的MOOC有提供，比如2016年2月1日约翰-霍普金斯大学Coursera数据科学专业化课程等网络课程。数据科学家的常用工具与基本思路，并对数据、相关问题和数据分析师和数据科学家使用的工具做了综合概述。数据科学家和大数据技术人员的工具包：A.大数据技术平台相关2015最佳工具，B.开源大数据处理工具汇总，C.常见的数据挖掘分析处理工具。 A.大数据技术平台相关2015最佳工具 InfoWorld在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者，下面我们来简单介绍下这些获奖的技术工具。 1.?Spark 在Apache的大数据项目中，Spark是最火的一个，特别是像IBM这样的重量级贡献者的深入参与，使得Spark的发展和进步速度飞快。与Spark产生最甜蜜的火花点仍然是在机器学习领域。去年以来DataFrames?API取代SchemaRDD?API，类似于R和Pandas的发现，使数据访问比原始RDD接口更简单。Spark的新发展中也有新的为建立可重复的机器学习的工作流程，可扩展和可优化的支持各种存储格式，更简单的接口来访问机器学习算法，改进的集群资源的监控和任务跟踪。网站上有超过100个第三方贡献的链接库扩展，增加了许多有用的功能。 2.?Storm Storm是Apache项目中的一个分布式计算框架项目，主要应用于流式数据实时处理领域。他基于低延时交互模式理念，以应对复杂的事件处理需求。和Spark不同，Storm可以进行单点随机处理，而不仅仅是微批量任务，并且对内存的需求更低。在我的经验中，他对于流式数据处理更有优势，特别是当两个数据源之间的数据快速传输过程中，需要对数据进行快速处理的场景。Spark掩盖了很多Storm的光芒，但其实Spark在很多流失数据处理的应用场景中并不适合。Storm经常和Apache?Kafka一起配合使用。 3.?H2O H2O是一种分布式的内存处理引擎用于机器学习，它拥有一个令人印象深刻的数组的算法。早期版本仅仅支持R语言，3.0版本开始支持Python和Java语言，同时它也可以作为Spark在后端的执行引擎。使用H2O的最佳方式是把它作为R环境的一个大内存扩展，R环境并不直接作用于大的数据集，而是通过扩展通讯协议例如REST?API与H2O集群通讯，H2O来处理大量的数据工作。几个有用的R扩展包，如ddply已经被打包，允许你在处理大规模数据集时，打破本地机器上内存容量的限制。你可以在EC2上运行H2O，或者Hadoop集群/YARN集群，或者Docker容器。用苏打水（Spark+?H2O）你可以访问在集群上并行的访问Spark?RDDS，在数据帧被Spark处理后。再传递给一个H2O的机器学习算法。 4.?Apex Apex是一个企业级的大数据动态处理平台，即能够支持即时的流式数据处理，也可以支持批量数据处理。它可以是一个YARN的原生程序，能够支持大规模、可扩展、支持容错方法的流式数据处理引擎。它原生的支持一般事件处理并保证数据一致性（精确一次处理、最少一次、最多一次）。以前DataTorrent公司开发的基于Apex的商业处理软件，其代码、文档及架构设计显示，Apex在支持DevOps方面能够把应用开发清楚的分离，用户代码通常不需要知道他在一个流媒体处理集群中运行。Malhar是一个相关项目，提供超过300种常用的实现共同的业务逻辑的应用程序模板。Malhar的链接库可以显著的减少开发Apex应用程序的时间，并且提供了连接各种存储、文件系统、消息系统、数据库的连接器和驱动程序。并且可以进行扩展或定制，以满足个人业务的要求。所有的malhar组件都是Apache许可下使用。 5.?Druid Druid在今年二月转为了商业友好的Apac