分布式数据流处理的算子调度和负载平衡研究.pdf

分布式数据流处理的算子调度和负载平衡研究.pdf

优秀硕士毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文的提供参考!!

摘 要 数据流处理系统广泛应用在众多领域,例如金融管理、网络监视、通信数据管 理、Web 应用、传感器网络数据处理等。随着计算机网络、分布式计算技术的迅速 发展,使得实时处理分布在网络不同结点上的流数据成为可能,于是分布式流处理 技术便应运而生。由于流数据源及应用本身存在分布的特点,并且应用规模不断扩 大,分布式流处理系统成为流数据处理研究的必然趋势。分布式数据流处理系统的 研制在国际上也是刚刚起步,在军事、网络、金融等关系到国计民生的领域,将会 有越来越广泛的用途。 在分布式流处理系统中,算子调度策略的选取对系统内存的消耗,输出延迟的 长短等系统重要性能指标有很大的影响。我们设计的GM调度策略综合考虑了将来的 负载变化、当前的内存消耗状况以及用户对于主要性能指标的偏好与要求,在系统 内存最小化和结果输出延迟方面取得平衡。在GM调度策略中,算子的执行顺序由一 个评分函数统一决定。可以通过设置评分函数的静态参数来满足不同应用场景的需 要,也可以自动地调整评分函数的动态参数来反映系统的工作状态。另外,GM调度 策略可以保证查询的优先级。 由于流处理应用中需要实时处理大量具有相当高的突发性的数据,系统可能不 能及时处理。所以无论是集中式数据流处理

文档评论(0)

1亿VIP精品文档

相关文档