基于大数据算法的在线监测数据治理.docx

基于大数据算法的在线监测数据治理 摘要:通过对在线监测大数据治理的探究,简述了传统数据治理和大数据治理发展概况,分析了在线监测数据常见的问题。针对在线监测数据异常的问题点,基于大数据治理技术,从数据规范和数据清洗两个方面,制定数据异常判断规则,确立数据异常的处理办法,对在线监测数据进行数据治理。 污染源在线监测系统作为环境监管的重要手段,对提升环境监管水平有着重要作用。自国家提出污染源在线自动监测的概念以来,各级生态环境部门积极加大相关领域的投入力度。经过多年的发展,我国已基本建成了覆盖重点排污单位的污染源在线自动监测体系,基本实现了对重点排污单位污染物排放情况的实时监控和超标响应处置等,同时在线监测数据也被广泛应用于环境部门数据统计、应急、减排、环保电价等多个方面 污染源在线监测数据的有效性直接关系到污染源在线监测系统作用的发挥。在线监测系统通过各种分析仪器,传感器产生的数据上传至环保执法部门。由于监控设备受环境、设备损耗、人为干预等不确定因素的影响,环保部门获取的在线监测数据经常会出现数据错误、重复、异常等情况。异常的监测数据不能真实反映企业实际排污情况,同时对环保部门监控报警、行政执法、处罚判断造成错误的影响。因此,保障在线监测系统的正常稳定运行,获取在线监测数据的全面、准确、客观、真实显得非常重要。当前需要一套完整全面的数据治理方案,发现在线监测数据异常特点,对在线监测系统中出现的异常数据能够自动识别,删除错误的数据,避免数据重复发送,对各种形式不统一的数据进行数据清洗,形成一套标准化、规格化的数据,从而降低无效数据对整个在线监测系统的影响。 对于数据治理,我国银行业的数据信息化走在前列,银保监会发布的《银行业金融机构数据治理指引》 1 数据治理概述及现状 至今为止,数据治理还没有统一标准的定义。IBM对于数据治理的定义为:数据治理是一种质量控制规程,用于保证数据在管理、使用、改进和保护的过程中,能够增加利用数据的纪律性和严谨性。DGI认为数据治理是指在企业数据管理中,能够对数据具有分配决策的权利,以及对数据负有相关职责 当前,我国已经进入大数据环境中,面对大数据兴起带来的挑战,数据治理工作不再依赖传统的数据处理模式 2 在线监测数据现状 企业在线监测数据是环保部门监管企业排污排放的重要依据。在实际的业务开展中,架设及部署在外部环境的监测设备,极易受到环境以及人为因素的影响,经常会遇到数据信号强度抖动厉害、传输不稳定等问题,极易出现噪声、不完整、不一致、数据抖动及偏移的低质量数据,致使出现错误数据现象,数据偏离正常波动范围,影响数据的分析应用 (1)空缺值数据:缺失关键信息的数据,如监测站点的信息缺失或不全,主体名称信息缺失等。 (2)恒值数据:在线监测数据污染物因子浓度、p H、废水流量、烟气流量、烟气温度等,在某个时间段的监测值保持恒定值,无其他数据变化。 (3)零值数据:在线监测企业正常生产经营,在未申报停产阶段下监测数据出现大量的零值。 (4)超大值数据:企业稳定排放,在线监测污染物因子浓度等突然出现超过正常排放数据,甚至数倍,大于排放浓度上限的超大超标数据。 (5)超低值数据:企业稳定排放,在线监测污染物因子浓度等突然出现超低正常排放数据,甚至小于排放浓度下限,负值等超低异常数据。 (6)噪声数据:由噪音偏离的不确定性导致的与原始数据具有相关性但又具备不确定性偏离值的数据。 (7)不一致数据:由于业务系统不健全、数据约束条件缺失或者过于简单,相关业务员由于各种原来录入错误信息,比如日期格式不正确,日期越界等。 (8)重复数据:在数据表连接、数据合并过程中产生的冗余数据。 由于在线监测存在“脏、乱、差”诸多异常数据,这大大降低了环境监测数据的有效性,极大影响环境监管部门的执法检查,降低了环境决策的支撑能力。因此,对于在线监测的数据治理变得尤为重要。 3 在线监测数据治理方法 在数据治理过程中所用到的技术工具,主要包括数据规范、数据清洗、数据交换和数据集成这4种技术 3.1 数据规范标准 数据治理的第一步是定标准,制定统一的标准体系能够奠定基础。标准包括最底层的代码体系,如基础标准和通用代码标准等。同时制定标准的范围也包括数据模型标准、数据加工处理过程的规范(比如ETL过程命名规则、数据接口规范、数据应用规范)以及数据管理规章制度。第二步,是在标准的基础上制定数据的治理检测规则,通过对数据公共规则、业务规则的制定,实现快速去除脏数据,保留有效业务数据,实现对监测数据的准确分析。 3.1.1 数据标准制定 按照企业在线监测的业务域和数据类型梳理数据资产,并制定数据资产的生产、管理、应用的相关标准。 第一,定义统一的标识,具体包括:数据标识、设备标识、组织标识、类型

文档评论(0)

1亿VIP精品文档

相关文档