基于成本的流计算语言优化模型分析-analysis of optimization model of flow computing language based on cost.docxVIP
- 7
- 0
- 约5.99万字
- 约 74页
- 2018-05-18 发布于上海
- 举报
基于成本的流计算语言优化模型分析-analysis of optimization model of flow computing language based on cost
摘要目前,在分布式系统中,业界和学术界对数据处理的实时性要求越来越高。离线计算对于批量处理虽然有着较大的优势,但对于流式数据的处理却表现的能力不足。近年来,出现了一系列的实时处理框架,包括Storm、SparkStreaming、S4、StreamBase等。然而,对基于这些框架的查询优化,目前在业界和学术界却鲜有研究。因此,本文提出了一个基于实时处理框架Storm的成本优化模型,用以提高在Storm上执行类SQL查询的处理效率。本文的研究重点是根据流式计算框架Storm的特点,提出一个基于成本的针对流式计算语言的优化模型。由于Storm是全内存操作,因此在计算其执行成本时,只考虑CPU 的计算成本和节点间通信所带来的成本。本文针对连接查询和聚合查询两种操作分别定义了成本计算模型。对于连接查询采用基于哈希的两个数据流的连接算法。多连接操作中影响CPU成本的主要因素包括创建哈希的时间、左右数据流窗口中的元组数、算子选择率、获取一个元组花费的CPU时间等;影响通信成本的主要因素有节点的数据产生速率和算子的选择率。而对于聚合操作,影响成本的因素主要有窗口数据量的大小、窗口独立分组数以及元组在分组中分布偏移率。在本论文中,对流式查询语言、SQL的解析流程以及多连接查询优化的方法进行了调研,对基于成本的优化方式进行了深入研究。首先,根据流式数据的特点,设计能够处理流式数据的查询语言—SSQL,其与标准SQL语句相类似。滑动窗口的设计,使其能够较好地处理流式数据。其次,根据Storm的特性,抽象出一些物理算子,保证SSQL 查询语句编译后能生成与Storm适配的物理查询计划。再次,完成对SSQL语言的解析,包括将SSQL 语句解析为抽象语法树、生成逻辑查询计划、物理查询计划、提交Storm执行等多个步骤。在生成物理查询计划后,依据定义的成本模型,对每个查询计划进行成本计算,得到成本最小的查询计划,作为最终的执行计划,提交给Storm执行,将最后得到的结果返回给用户。最后,本文对定义的成本模型进行性能测试。设定了四个不同的查询任务和三个不同大小的滑动窗口,将每个任务在每个窗口上的执行时间与未优化的执行计划,以及查询引擎Squall中的优化器进行对比。实验表明,与Squall相比,本文优化器的性能平均提升了10.99%。关键词:类SQL,流计算,查询优化,成本模型ABSTRACTAtpresent,theindustryandacademiaarerequiringmoreandmorereal-timedata processingindistributedsystems.Theofflinecomputinghavegreatadvantageinbatch processing,butisinsufficientinprocessingofstreamingdata.Inrecentyears,both industryandacademiahavedevelopedaseriesofreal-timeprocessingframeworks, includingStorm,SparkStreaming,S4,StreamBase,etc.However,fewresearchesare focusedonthequeryoptimizationoftheseframeworks.Thisthesisproposesa cost-basedoptimizationmodelforStormtoimprovetheefficiencyofSQL-Likequery processing.Thisthesisfocusonproposingacost-basedqueryoptimizationmodelforStream computinglanguageaccordingtothecharacteristicsofStorm.AsStormisan in-memorycomputingframework,weonlyconsiderthecomputingcostofCPUand communicationscostbetweennodeswhenwearecalculatingthetotalexecutioncosts. Thisthesisdefinedthecostcalculationmodelsforjoinqueriesandaggregatequeries separately.Forjoinqueries,thisthesisusestwojoinalgorithmsofdatastreamsbased onhash.ThereareseveralmajorfactorsthatmayaffecttheCPUcosts
您可能关注的文档
- 基于变换域的数字音频零水印算法分析-analysis of digital audio zero watermark algorithm based on transform domain.docx
- 基于变换域窄带干扰抑制技术分析及fpga实现-analysis and fpga implementation of narrowband interference suppression technology based on transform domain.docx
- 基于变换域的非局部均值图像去噪方法分析-analysis of non-local mean image denoising method based on transform domain.docx
- 基于变迹加权设计的声表面波温度传感器的构建和分析-construction and analysis of surface acoustic wave temperature sensor based on apodization weighted design.docx
- 基于变式理论的基本不等式教学设计分析-analysis of basic inequality teaching design based on variant theory.docx
- 基于变论域模糊pid的数控机床伺服系统分析-analysis of cnc machine tool servo system based on variable universe fuzzy pid.docx
- 基于变形监测信息的三峡库区滑坡分类与预测预报系统分析-analysis of landslide classification and prediction system in three gorges reservoir area based on deformation monitoring information.docx
- 基于变形能量有限元分析的汽车碰撞速度反推方法分析-analysis of vehicle collision velocity backstepping method based on finite element analysis of deformation energy.docx
- 基于变形雅可比p=4,q=3-傅里叶矩的纹理图像分割-texture image segmentation based on deformed jacobian p = 4, q = 3 - fourier moments.docx
- 基于变邻域搜索算法的应急车辆路径问题分析-analysis of emergency vehicle routing problem based on variable neighborhood search algorithm.docx
最近下载
- 《GB_T 18802.331-2024低压电涌保护器元件 第331部分:金属氧化物压敏电阻(MOV)的性能要求和试验方法》专题研究报告.pptx
- 2015-2021年全国体育单招数学真题汇编.pdf VIP
- 2025军队文职公共知识法律部分讲义.pdf VIP
- 大学生职业生涯规划与就业指导教学教案(共10课).docx VIP
- 《民法典之债权法》课件.ppt VIP
- 无线局域网技术与实践课程标准教学教案.docx
- 2002年上海市第十六届初中物理竞赛(大同中学杯)初赛试题.doc VIP
- 2023年四川信息职业技术学院单招职业技能考试题库及答案解析word版.docx VIP
- 大学生职业生涯规划与就业指导课标教案.docx VIP
- 2025年统招专升本云南省医学综合考试试题及答案.docx VIP
原创力文档

文档评论(0)