流数据处理技在资源监测网中的应用.pptxVIP

流数据处理技在资源监测网中的应用.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
流数据处理技在资源监测网中的应用

流数据处理技术 在资源监测网中的应用 汇报提纲 2/23 海底观测网故障诊断平台 研究背景-项目基础 3/23 实时监测+故障诊断 资源监测网 + 数据实时处理 共同点 综合安全管理平台 业务支持系统设备 采集间隔:5m 光、电、传感器设备 采集间隔:2s 响应时间:3s 研究背景-选题来源 4/23 数据多源异构:26种数据包 数据到达速度快:2s 数据量大:一天达44.9GB 响应时间:3s 回溯历史数据年限:10年 处理能力 实时响应 论文萌芽 研究背景-流数据处理研究现状 5/23 流数据实时处理发展迅猛 商业领域: 学术研究: 传统金融领域:StreamBase 互联网: S4、Storm(国外) Dstream(国内) 数据模型 负载管理 高可用性 可扩展性 Click add your text Click add your text 汇报提纲 6/23 研究目标 7/23 对应适配器将数据转化成统一格式后输出 负载管理 批处理方式存储 多粒度存储压缩存储空间 转换成统一标准格式 负载均衡 降载技术 两次存储 引入流数据管理系统,构建一个资源监测网总体架构 总 目 标 流数据 多源异构 流数据过载 流数据持久化 存在问题 研究内容 汇报提纲 8/23 本文工作-资源监测网整体架构 9/23 本文工作-异构数据转换 输入:各种异构流数据 数据:统一格式的流数据 算法处理过程: 连接输入流 读取数据源中一条元组 适配器获得配置信息 通过配置信息里定义的输入流的模式来解析该元组各个字段,重新组装该元组写入到流中 断开连接 算法描述 工 作 在 预 处 理 层 10/23 本文工作-负载管理 过载节点过多时失效 存在数据损失 两者结合 负载均衡 + 降载 流速波峰到达时 系统维持稳定工作 数据完整 调节快速且代价小 负载管理 11/23 本文工作-负载管理模块设计 处 理 节 点 负载监测:收集负载监测供降载决策使用 负载管理器:决策模块,判断系统是否过载并决定采取哪种处理模型 状态统计:统计负载信息 降载:决定过滤器的启止及过滤度 负载均衡:根据平衡决策调整本地查询网络的算子的启止及数据流向 中心节点:进行负载决策 处理节点:执行决策结果 中 心 节 点 12/23 负载评价指标 高负载阈值 低负载阈值 存在低负载算子 高负载节点数 低负载节点数 处理前提 处理流程 Y Y N CPU占用率 本文工作-中心节点处理流程 13/23 1 2 3 降 载 时 机 及时检测出过载情况 避免过度降载 降 载 位 置 尽早丢弃负载 过早丢弃存在 不利影响 降 载 量 尽可能丢弃更多的数据 降载量过大影响准确性 时机: 节点均过载,负载均衡无效 选取合适的位置插入过滤器 满足降载要求 输出元组损失率最小 给过滤器设置合适的量 满足降载要求 输出元组损失率最小 寻求最优解 本文工作-降载关键问题分析 14/23 本文工作-降载解决方案 选择率: 输出元组与输入元组个数比率 过滤度: 过滤器丢弃元组的比率 单个节点:负载CPU处理能力 整个系统:输出元组尽量多 最大 线性规划问题 15/23 海底观测网故障诊断平台 用户最关心:故障数据 查询之间有重要程度的差别 重要程度: 故障查询状态查询 优先丢弃重要程度较低的数据 给查询赋予一个权值p值 P越大重要程度越高,丢弃带来的负面影响大 带权吞吐量最大 改进思路 本文工作-降载方案与背景结合 16/23 本文工作-流数据持久化 两次存储 历史详细数据转化为统计数据,存储在粒度不同的统计表中 流数据持久化 压缩历史数 据存储空间 17/23 本文工作-实验平台 实验平台 海底观测网故障诊断平台 实验数据 模拟程序以真实采集数据为样本发送模拟数据 18/23 2 5 10 平均数据错失率 0.3 0.3 0.3 故障数据错失率 0.05 0 0 状态数据错失率 0.23 0.3 0.3 前提:系统稳定工作下数据到达速度为50条/s 测试系统在2倍速、5倍速、10倍速的场景下能否正常工作 对比10倍速下,配置不同故障/状态数据权值比时的数据错失率 系统在10倍流速时能继续稳定工作 故障/状态数据权值比达到5及以上时,可以保证不丢故障数据 实验设计 本文工作-实验结果 19/23 故障/状态 数据权值比 错失率 汇报提纲 20/23 引入分布式流数据管理系统作为数据处理引擎,构建了一个资源监测网的整体架构 对流数据异构、流数据过载、流数据持久化这三个问题进行分析和研究 设计了一个负载管理模型结合负载均衡和降载技术来解决过载问题 通过适配器结合配置文件进行转换的方法,解决数据多源异构问题 采用两次存储的方案,将流数据持久化到数据库中并压缩历史数据 体积,降

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档