- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
流数据处理技在资源监测网中的应用
流数据处理技术
在资源监测网中的应用
汇报提纲
2/23
海底观测网故障诊断平台
研究背景-项目基础
3/23
实时监测+故障诊断
资源监测网
+
数据实时处理
共同点
综合安全管理平台
业务支持系统设备
采集间隔:5m
光、电、传感器设备
采集间隔:2s
响应时间:3s
研究背景-选题来源
4/23
数据多源异构:26种数据包
数据到达速度快:2s
数据量大:一天达44.9GB
响应时间:3s
回溯历史数据年限:10年
处理能力
实时响应
论文萌芽
研究背景-流数据处理研究现状
5/23
流数据实时处理发展迅猛
商业领域:
学术研究:
传统金融领域:StreamBase
互联网:
S4、Storm(国外) Dstream(国内)
数据模型
负载管理
高可用性
可扩展性
Click add your text Click add your text
汇报提纲
6/23
研究目标
7/23
对应适配器将数据转化成统一格式后输出
负载管理
批处理方式存储
多粒度存储压缩存储空间
转换成统一标准格式
负载均衡
降载技术
两次存储
引入流数据管理系统,构建一个资源监测网总体架构
总
目
标
流数据
多源异构
流数据过载
流数据持久化
存在问题
研究内容
汇报提纲
8/23
本文工作-资源监测网整体架构
9/23
本文工作-异构数据转换
输入:各种异构流数据
数据:统一格式的流数据
算法处理过程:
连接输入流
读取数据源中一条元组
适配器获得配置信息
通过配置信息里定义的输入流的模式来解析该元组各个字段,重新组装该元组写入到流中
断开连接
算法描述
工
作
在
预
处
理
层
10/23
本文工作-负载管理
过载节点过多时失效
存在数据损失
两者结合
负载均衡
+
降载
流速波峰到达时
系统维持稳定工作
数据完整
调节快速且代价小
负载管理
11/23
本文工作-负载管理模块设计
处
理
节
点
负载监测:收集负载监测供降载决策使用
负载管理器:决策模块,判断系统是否过载并决定采取哪种处理模型
状态统计:统计负载信息
降载:决定过滤器的启止及过滤度
负载均衡:根据平衡决策调整本地查询网络的算子的启止及数据流向
中心节点:进行负载决策
处理节点:执行决策结果
中
心
节
点
12/23
负载评价指标
高负载阈值
低负载阈值
存在低负载算子
高负载节点数
低负载节点数
处理前提
处理流程
Y
Y
N
CPU占用率
本文工作-中心节点处理流程
13/23
1
2
3
降
载
时
机
及时检测出过载情况
避免过度降载
降
载
位
置
尽早丢弃负载
过早丢弃存在
不利影响
降
载
量
尽可能丢弃更多的数据
降载量过大影响准确性
时机:
节点均过载,负载均衡无效
选取合适的位置插入过滤器
满足降载要求
输出元组损失率最小
给过滤器设置合适的量
满足降载要求
输出元组损失率最小
寻求最优解
本文工作-降载关键问题分析
14/23
本文工作-降载解决方案
选择率:
输出元组与输入元组个数比率
过滤度:
过滤器丢弃元组的比率
单个节点:负载CPU处理能力
整个系统:输出元组尽量多
最大
线性规划问题
15/23
海底观测网故障诊断平台
用户最关心:故障数据
查询之间有重要程度的差别
重要程度:
故障查询状态查询
优先丢弃重要程度较低的数据
给查询赋予一个权值p值
P越大重要程度越高,丢弃带来的负面影响大
带权吞吐量最大
改进思路
本文工作-降载方案与背景结合
16/23
本文工作-流数据持久化
两次存储
历史详细数据转化为统计数据,存储在粒度不同的统计表中
流数据持久化
压缩历史数
据存储空间
17/23
本文工作-实验平台
实验平台
海底观测网故障诊断平台
实验数据
模拟程序以真实采集数据为样本发送模拟数据
18/23
2
5
10
平均数据错失率
0.3
0.3
0.3
故障数据错失率
0.05
0
0
状态数据错失率
0.23
0.3
0.3
前提:系统稳定工作下数据到达速度为50条/s
测试系统在2倍速、5倍速、10倍速的场景下能否正常工作
对比10倍速下,配置不同故障/状态数据权值比时的数据错失率
系统在10倍流速时能继续稳定工作
故障/状态数据权值比达到5及以上时,可以保证不丢故障数据
实验设计
本文工作-实验结果
19/23
故障/状态
数据权值比
错失率
汇报提纲
20/23
引入分布式流数据管理系统作为数据处理引擎,构建了一个资源监测网的整体架构
对流数据异构、流数据过载、流数据持久化这三个问题进行分析和研究
设计了一个负载管理模型结合负载均衡和降载技术来解决过载问题
通过适配器结合配置文件进行转换的方法,解决数据多源异构问题
采用两次存储的方案,将流数据持久化到数据库中并压缩历史数据
体积,降
文档评论(0)