能源系统大数据分析理论与实-2.能源系统数据预处理.docxVIP

能源系统大数据分析理论与实-2.能源系统数据预处理.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1

能源系统数据预处理

2

目录

o能源系统中的数据

o数据清洗方法

o数据降维方法

o数据规范化方法

o数据转换方法

o数据分割方法

数据来源

能源系统的数据通常来自传感器的测量信号和执行器的执行信号:

温度传感器

温度传感器

水泵电机

\

压力传感器

压力传感器

数据的格式和特点

能源系统运行数据

连续数值变量:取值为连续区间

如:水管流速,房间温湿度等

类别变量:取值为离散值

如:设备开关、时间变量

设备开关状态:

设备开关状态:{0,1}

相对湿度:[0,1]

频率:50HZ0HZ

10注意:不是所有运行数据的连续变量

10

4

数据的表现形式

能源系统运行数据的存储:二维数据表

采集间隔:秒、分钟、小时、天…

实际分析角度:静态关系、时序关系…

分析变量的静态关系

分析数据的时序关系

分析数据的时序关系

特定时间点收集到的观测值

采集时间典型建筑运行数据格式5

6

数据存在的问题

能源系统运行机理复杂,数据采集、储存的过程中容易出现各种问题,数据整体质量低,存在缺失值、异常值。因此,需要引入数据清洗方法:

正常值缺失值异常值

某实际建筑2017年运行数据中:

缺失值占比约为8%

异常值占比约为5%

数据预处理方法

能源领域中,不同的应用需求对数据有着不同的要求,因此需要引入一系列数据预处理方法,提高后续工作的可靠性:

常见数据预处理方法汇总

7

8

目录

o能源系统中的数据

o数据清洗方法

o数据降维方法

o数据规范化方法

o数据转换方法

o数据分割方法

9

数据清洗

目的:改善原始数据质量

缺失值处理异常值识别

缺失值:各种原因导致的数据缺失现象,数据样本存在未完整记录的数值

该时间段内没有对应数据

温度

温度/℃

缺失值实例:冷机2017年1月1日冷冻出水温度数据集

异常值:不符合常理或系统运行规律的数值,如取值超出正常范围、连续呈现固定状态等

冷冻水出水温度陡增,不符合领域认知

温度

温度/℃

异常值实例:冷机2017年1月20-22日冷冻出水温度数据集

能源领域中的缺失值

缺失值出现的主要原因:

人工采集错误:数据采集人员疏忽大意等人为因素导致的部分数据没有被记录

采集仪表故障:传感器接触不良、发生故障等原因导致的部分数据没有被采集

数据储存故障:断电或者数据储存设备损坏等原因导致的部分数据没有被储存

10缺失值的影响:

10

缺失值的影响:

个别变量的数据缺失:无法对数据缺失时段的统计规律进行有效分析

某些变量的数据缺失:回归建模过程中缺少这些变量的有效信息,影响模型精度

缺失值处理方法

丢弃

缺失值处理方法

补全

丢弃:缺失值样本的比例较小,不会显著影响数据分析的质量

补全:缺失值样本的比例过大,或者样本采集的成本过高

?补全11

?补全

11

举例:假设目前只有50个历史数据样本可供使用,且其中20个数据样本包含缺失值

?丢弃

单变量补全

单变量补全:用目标变量的数据特征来推断缺失值

均值插补

补全方法

中位数插补

中位数插补

正向/反向时序插补移动平均法插补

单变量补全

多变量补全

?均值/中位数插补:

?均值/中位数插补:

?表中所有有值数据的统计量:

均值:24中位数:25

?T=6和T=7时刻的缺失值由数据集的均值或中位数填补

12

单变量补全

补全方法

单变量补全

多变量补全

均值插补

中位数插补

正向/反向时序插补

移动平均法插补

选取T=8时刻的真实值(

选取T=8时刻的真实值(35)

13

?正向/反向时序插补:

?正向:采用最邻近缺失值的上一时刻数值进行补全:

选取T=5时刻的真实值(30)

?反向:采用最邻近缺失值的下一时刻数值进行补全:

单变量补全

补全方法

单变量补全

多变量补全

均值插补

中位数插补

正向或反向时序插补

移动平均法插补

?移动平均插补:

?移动平均插补:

?固定时间窗口w,计算最邻近缺失值的w个连续数值的均值

?设w=3,则T=6时刻的缺失值:计算T=3、4、5时刻的数据均值

(20+25+30)/3=25

?T=7时刻的缺失值:计算T=4、5时刻的

真实值和T=6时刻的填补值的均值

(25+30+25)/3=27

14

多变量补全

多变量补全:寻找其他参考变量与目标变量的关系来估算缺失值

补全方法

单变量补全

多变量补全

K邻近算法

基于回归思想

?

?基于K近邻的缺失值填充:

?通过参考变

文档评论(0)

达芬奇 + 关注
实名认证
文档贡献者

免责声明:本账号发布文档均来源于互联网公开资料,仅用于技术分享交流,不得从事商业活动,相关版权为原作者所有。如果侵犯了您的相关权利,请提出指正,我们将立即删除相关资料。

1亿VIP精品文档

相关文档