网易视频云技术分享：一个SparkSQL的作业的一生.docx

下载文档 降价啦

4
0
约6.05千字
约 8页
2017-01-03 发布于贵州
举报
版权申诉
保障服务

网易视频云技术分享：一个SparkSQL的作业的一生.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网易视频云技术分享：一个SparkSQL的作业的一生网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术，提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PAAS服务，在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在，网易视频云的技术专家给大家分享一则技术文：一个SparkSQL的作业的一生。Spark是时下很火的计算框架，由UC Berkeley AMP Lab研发，并由原班人马创建的Databricks负责商业化相关事务。而SparkSQL则是Spark之上搭建的SQL解决方案，主打交互查询场景。人人都说Spark／SparkSQL快，各种Benchmark满天飞，但是到底Spark／SparkSQL快么，或者快在哪里，似乎很少有人说得清。因为Spark是基于内存的计算框架？因为SparkSQL有强大的优化器？本文将带你看一看一个SparkSQL作业到底是如何执行的，顺便探讨一下SparkSQL和Hive On MapReduce比起来到底有何其别。SQL On Hadoop的解决方案已经玲琅满目了，不管是元祖级的Hive，Cloudera的Impala，MapR的Drill，Presto，SparkSQL甚至Apache Tajo，IBM BigSQL等等，各家公司都试图解决SQL交互场景的性能问题，因为原本的Hive On MapReduce实在太慢了。那么Hive On MapReduce和SparkSQL或者其他交互引擎相比，慢在何处呢？让我们先看看一个SQL On Hadoop引擎到底如何工作的。现在的SQL On Hadoop作业，前半段的工作原理都差不多，类似一个Compiler，分来分去都是这基层。小红是数据分析，她某天写了个SQL来统计一个分院系的加权均值分数汇总。SELECT dept, avg(math_score * 1.2) + avg(eng_score * 0.8) FROM studentsGROUP BY dept;其中STUDENTS表是学生分数表（请不要在意这个表似乎不符合范式，很多Hadoop上的数据都不符合范式，因为Join成本高，而且我写表介绍也会很麻烦）。她通过网易大数据的猛犸系统提交了这个查询到某个SQL On Hadoop平台执行，然后她放下工作，切到视频网页看一会《琅琊榜》。在她看视频的时候，我们的SQL平台可是有很努力的工作滴。首先是查询解析。这里和很多Compiler类似，你需要一个Parser（就是著名的程序员约架专用项目），Parser（确切说是Lexer加Parser）的作用是把一个字符串流变成一个一个Token，再根据语法定义生成一棵抽象语法树AST。这里不详细展开，童鞋们可以参考编译原理。比较多的项目会选ANTLR（Hive啦，Presto啦等等），你可以用类似BNF的范式来写Parser规则，当然也有手写的比如SparkSQL。AST会进一步包装成一个简单的基本查询信息对象，这个对象包含了一个查询基本的信息，比如基本语句的类型是SELECT还是INSERT，WHERE是什么，GROUP BY是什么，如果有子查询，还需要递归进去，这个东西大致来说就是所谓的逻辑计划。TableScan(students)- Project(dept, avg(math_score * 1.2) + avg(eng_score * 0.8))-TableSink上面是无责任示意，具体到某个SQL引擎会略有不同，但是基本上都会这么干。如果你想找一个代码干净易懂的SQL引擎，可以参考Presto（可以算我读过的开源代码写的最漂亮的了）。到上面为止，你已经把字符串转换成一个所谓的LogicalPlan，这个Plan距离可以求值来说还比较残疾。最基本来说，我还不知道dept是个啥吧，math_score是神马类型，AVG是个什么函数，这些都不明了。这样的LogicalPlan可以称为Unresolved（残疾的）Logical Plan。缺少的是所谓的元数据信息，这里主要包含两部分：表的Schema和函数信息。表的Schema信息主要包含表的列定义（名字，类型），表的物理位置，格式，如何读取；函数信息是函数签名，类的位置等。有了这些，SQL引擎需要再一次遍历刚才的残废计划，进行一次深入的解析。最重要的处理是列引用绑定和函数绑定。列引用绑定决定了一个表达式的类型。而有了类型你可以做函数绑定。函数绑定几乎是这里最关键的步骤，因为普通函数比如CAST，和聚合函数比如这里的AVG，分析函数比如Rank以及Table Function比如explode都会用完全不同的方式求值，他们会被改写成独