工业互联网平台综合应用 课件 项目三任务3.3 ITOT数据融合计算.pptx

工业互联网平台综合应用 课件 项目三任务3.3 ITOT数据融合计算.pptx

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《工业数据处理与分析》/工业互联网系列课程项目三生产能源管理分析任务四ITOT数据融合计算

目录任务说明01《工业数据处理与分析》/工业互联网系列课程知识准备02任务实施03思考与讨论04

任务说明上一个任务中,数据开发工程师已经根据能源指标体系完成工业设备数据实时计算在本次任务中,数据开发工程师需要根据业务需求,搭建离线数据开发任务任务说明学习导图

目录任务说明01《工业数据处理与分析》/工业互联网系列课程知识准备02任务实施03思考与讨论04

批量计算概念批量计算,也称为批处理计算,是一种数据处理方式。批量计算是指对静态数据的批量处理,批量计算处理的是“固定”、“有界”的数据集。也就是说,首先会统一收集数据,并且把数据以数据表的形式存储到数据库中,再按照不同的计算逻辑,对全部的数据进行统一的批量处理,待全部数据处理完成后,才会输出最终的结果。传统的数据处理方式面临的问题:如果数据源非常大时,往往数据的移动就要花费较长时间。传统的数据处理工具往往是单机模型,面对海量数据时,数据处理的时间也是一个很大的问题。

批量计算概念批量计算的主要特点:常用于处理大量数据,这些数据可以是存储在文件系统中的数据、数据库中的数据、网络中的数据等。大量数据处理通常是在一个固定时间段内,将数据按照一定的逻辑分组,进行一次性批量处理。通常适用于离线分析和历史趋势分析,这些分析往往需要大量数据支撑。通常要求数据的一致性,即每次处理的数据都是最新的数据,而不是实时的数据。通常需要在处理的时间窗口内完成所有数据的处理,处理速度是非常重要的。批量处理离线分析数据一致性处理速度

批量计算概念批量计算的典型应用场景包括但不限于:数据仓库的数据同步与更新定期将来自不同源的大量数据整合、清理、转换,并加载到数据仓库中。大规模数据分析对大数据集进行复杂的分析,如模式识别、趋势预测等,这些任务往往不需要即时反馈。日志文件分析收集和分析大量日志文件,以便进行性能监控、安全分析或用户行为分析。批量计算一般应用于那些离线批量、延时较高的静态数据处理过程,适用于实时性要求不高的场景,比如定时周期执行一个任务,任务周期可以是天级别、周级别、月级别、年级别。在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。一般是根据前一日的数据生成报表,虽然统计指标、报表繁多,但是对时效性不敏感。从技术操作的角度,这部分属于批量处理的操作。

批量计算概念流式计算和批量计算区别类别流式计算批量计算数据处理方式流式计算是一种实时数据处理方法,它持续地、即时地处理数据流。数据以连续的流形式进入系统并被实时处理,每接收到一条新数据或数据块时,系统会立即处理。批量计算处理的是静态的数据集。数据被累积一段时间后,形成一个完整的批次,然后作为一个整体进行处理。这种处理通常发生在数据集已经完全收集后。适用场景适用于需要即时响应的场景,如实时监控、实时分析、实时决策支持系统等。适合处理历史数据集,进行大规模的数据分析、统计汇总、报告生成等,这些场景不要求即时响应。性能考量关注延迟的最小化,即数据从输入到输出的时间应尽可能短。关注吞吐量的最大化,即单位时间内处理的数据量最大。数据处理模型基于事件的处理,每个数据项或小批数据项被视为一个事件。基于批次的处理,数据分为不同的批次,每个批次包含大量数据。

离线数据节点输入节点可以是外部数据,也可以是内部数据。输入节点主要包含hive,MySQL,PostgreSQL,Oracle,工业数据编织。外部数据库MySQL输入节点配置节点名称输入数据源输出映射查询语句支持字符串数据,最多可输入64个字符(1个汉字为2个字符)。节点配置可以选择MySQL外部数据源和数据源下的数据库表。节点配置选择了数据库表后,可以自动显示数据库表的字段列表,包括输入字段、输出字段名称、输出字段ID、输出数据类型。支持Where?orderby?limit?offset关键词,查询最大记录数限制1000000之内。输入节点

离线数据节点处理节点FlinkSQL语法:平台使用Flink1.12.2版本,具体操作请参考“Flink1.12官方文档”或“阿里云FlinkSQL文档”SQL编辑框格式化:在SQL编辑框中编写完成的SQL语句,可通过格式化将原有语句的格式规范化,便于排查错误。SQL语句校验:校验语法,可验证已输入的SQL语句是否符合FlinkSQL语法,如不符合页面上方会出现警告。窗口最大化:编辑栏窗口可放大缩小,便于查看编辑。输出字段:手动指定输出数据类型FlinkSQL查询包含:数据筛选,FlinkSQL查询,表关联,去重。注意:Number数据类型需要指定小数后几位,

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档