数据清洗需求设计.pdf

数据清洗(时间序列数据 TSD (time series Data )需求设计 Data Cleaning Module DCM 应该属于 DAX 的一个模块。 1、数据清洗的目的 原始采集的数据会受到传感器、变送器、信号传输、环境干扰(电磁、潮湿、高热) 、 人为造假等各种因素的影响,数据中会包含一些受到“污染” 的数据。如果直接利用这些数 据进行控制、绘图、制表、数据分析、数据挖掘,则不可避免的会影响分析过程和结果,总 的来说:低质量的数据无法获得高质量的分析结果。 任何规模的数据在分析以前,有必要对原始数据进行预处理,以使其达到必要的质量, 这个过程我们称之为数据清洗。 数据清洗后,一般有两类用途,一是直接用于在线过程控制,二是用于事后分析。 那些数据需要清洗 任何直接采集的数据都需要进行清洗, 利用清洗程序对数据处理后, 会对数据的各种缺 陷进行标记,对发现的有缺陷的数据进行抛弃、估计、修改。 很多工厂由于缺乏数据清洗这个环节,会大大影响过程控制的可靠性。低质量的数据, 在事后分析时会带来很大的困难。 不少环境监测类的投资, 由于缺乏数据质量控制和数据清 洗技术,会使投资回报大大降低。 2、通用性设计 常见的原始数据问题 1) 数据缺失 2) 跳点 3) 干扰(白噪声或其它) 4) 漂移(线性与非线性) 5) 超限 6) 滞后造成的时间不同步 7) 逻辑缺失(因果关系、相关关系) 8) 数据检验的方法 1) 上下限制检验法 2) 斜率检验法 3) 差值检验法 4) 频率检验法 5) 时间区间检验法 6) 人工数据修正 7) 关系检验(因果、相关性) 8) 数据处理的方法 1) 删除法 2) 补差法 a) 取前点 b) 均值插补 c) 回归插补 d) 极大似然估计 3) 回归法 4) 均值平滑法 5) 离群点分析 6) 小波去噪 7) 人工修改 8) 对时间序列数据的定义 1) 源数据序列( Origin TSD):一般保存人工采集导入和自动测报采集的原始数据,为 确保该类型数据安全,数据设置只读。 2) 生产时序数据( Production TSD):拷贝自源数据,加以校核和清洗。对数据的常规 维护通常在这类序列上进行。 3) 衍生时序数据( Derived TSD):一般是通过一些标准方法计算的统计序列,例如日 月年特征值等。 3、数据处理 数据处理的过程是通过数据计算任务来执行,数据清洗属于计算任务的一部分。 1) 用于在线过程控制的计算任务,此类计算任务的执行实时性高,例如 AVS,少人无 人值守控制平台, 计算任务在常规自控的轮询周期中。 一般的刷新率是秒级或毫秒 级。此类计算任务最好在 PLC中处理,如无法再 PLC中处理,就在上位机进行计算。 进行数据清洗的计算任务,一般属于此类,计算是实时进行。 2) 用于事后分析的计算任务, 此类计算任务的实时性不高, 用途主要是数据分析, 例 如各类 KPI、周期性的数据整理、各类自定义的计算等等,大数据分析通常也是利 用这些数据。 此类数据的计算任务实时性不高, 可以在事后按照固定的周期或者条 件进行。 4、数据质量( DQ)的定义: 1) 完整性 Completeness 完整性指的是数据信息是否存在缺失的状况,

文档评论(0)

1亿VIP精品文档

相关文档