大数据-Inceptor技术白皮书.pdfVIP

下载本文档

79
0
约1.52万字
约 12页
2019-10-13 发布于湖北
举报
版权申诉

大数据-Inceptor技术白皮书.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Transwarp Inceptor 基于Spark的交互式分析引擎技术解析基于Spark的交互式分析引擎技术解析 Hadoop由HDFS和Map/Reduce组成。HDFS仍然是一个高可扩展的分布式文件系统，是大数据软件栈的基石。Map/Reduce在处理PB级别的数据时，仍然具有高容错性、高吞吐量的特点。但由于复杂的工作流通常需要多个阶段的Map/Reduce任务，而Map/Reduce的输入输出必须经过低速磁盘，导致运行复杂迭代任务时非常低效，因此不适合对延时要求高的交互式分析或者需要复杂迭代的数据分析任务。而Spark是一个基于内存计算的开源集群计算系统，目的是更快速地进行数据分析。 Spark 提供了与Hadoop Map/Reduce 相似的分布式计算框架，但却有基于内存和迭代优化的设计，因此在交互式数据分析和数据挖掘工作负载中表现更优秀。随着对大数据技术研究的深入，Spark开源生态系统得到了快速发展，已成为大数据领域最活跃的开源项目之一。Spark之所以吸引如此多的关注，究其原因主要是因为Spark具有以下三方面特征：高性能：Spark对分布的数据集进行抽象，创新地提出RDD(Resilient Distributed Dataset)的概念，所有的统计分析任务被翻译成对RDD的若干基本操作组成的有向无环图(DAG)。RDD可以被驻留在内存中，后续的任务可以直接读取内存中的数据；同时分析DAG中任务之间的依赖性可以把相邻的任务合并，从而减少了大量的中间结果输出，极大减少了磁盘I/O，使得复杂数据分析任务更高效。从这个意义上来说，如果任务够复杂，迭代次数够多，Spark比Map/Reduce快一到两个数量级。高灵活性：Spark是一个灵活的计算框架，适合做批处理、工作流、交互式分析、迭代式机器学习、流处理等不同类型的应用，因此Spark可以成为一个用途广泛的计算引擎，并在未来取代Map/Reduce的地位。与Hadoop生态完美融合：Spark可以与Hadoop生态系统的很多组件互操作。Spark可以运行在新一代资源管理框架YARN上，它还可以读取已有的存放在Hadoop上的数据，这是个非常大的优势。虽然Spark具有以上三大优点，但从目前Spark的发展和应用现状来看，Spark 自身也存在很多缺陷，主要包括以下几个方面：稳定性：由于代码质量问题，Spark长时间运行会经常出错，在架构方面，由于大量数据被缓存在内存中， Java垃圾回收缓慢的现象严重，导致Spark的性能不稳定，在复杂场景SQL的性能甚至不如现有Map/Reduce。不能处理大数据：单台机器处理数据过大，或者由于数据倾斜导致中间结果超过内存大小时，常常出现内存不够或者无法运行得出结果。但是Map/Reduce计算框架却可以处理大数据，因此在这方面Spark不如Map/Reduce 有效。不支持复杂的SQL统计：目前Spark支持的SQL语法的完整程度还不能应用在复杂数据分析中。在可管理性方面，Spark与YARN的结合不完善，这就在用户使用过程中埋下隐患，易出现各种难题。因此，尽管Spark正活跃在众多大数据公司的技术体系中，但是如果Spark本身的这些缺陷得不到及时处理，将会严重影响Spark的普及和发展。星环科技有针对性的开发，推出了一系列关于Spark的大数据平台技术方案，这些难题便迎刃而解。星环科技推出的基于Spark的交互式分析引擎Inceptor，从下往上分三层架构，最底层是分布式缓存（ Transwarp Holodesk ），可建在内存或者SSD上；中间层是Apache Spark计算引擎层；最上层包括SQL 2003 和PL/SQL编译器、统计算法库和机器学习算法库，提供完整的R语言访问接口。 2014 TRANSWARP 星环科技 JDBC ODBC SHELL R-statistical computing Interactive SQL Engine