- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1
能源系统数据预处理
2
目录
o能源系统中的数据
o数据清洗方法
o数据降维方法
o数据规范化方法
o数据转换方法
o数据分割方法
数据来源
能源系统的数据通常来自传感器的测量信号和执行器的执行信号:
温度传感器
温度传感器
水泵电机
\
压力传感器
压力传感器
数据的格式和特点
能源系统运行数据
连续数值变量:取值为连续区间
如:水管流速,房间温湿度等
类别变量:取值为离散值
如:设备开关、时间变量
设备开关状态:
设备开关状态:{0,1}
相对湿度:[0,1]
频率:50HZ0HZ
10注意:不是所有运行数据的连续变量
10
4
数据的表现形式
能源系统运行数据的存储:二维数据表
采集间隔:秒、分钟、小时、天…
实际分析角度:静态关系、时序关系…
分析变量的静态关系
分析数据的时序关系
分析数据的时序关系
特定时间点收集到的观测值
采集时间典型建筑运行数据格式5
6
数据存在的问题
能源系统运行机理复杂,数据采集、储存的过程中容易出现各种问题,数据整体质量低,存在缺失值、异常值。因此,需要引入数据清洗方法:
正常值缺失值异常值
某实际建筑2017年运行数据中:
缺失值占比约为8%
异常值占比约为5%
数据预处理方法
能源领域中,不同的应用需求对数据有着不同的要求,因此需要引入一系列数据预处理方法,提高后续工作的可靠性:
常见数据预处理方法汇总
7
8
目录
o能源系统中的数据
o数据清洗方法
o数据降维方法
o数据规范化方法
o数据转换方法
o数据分割方法
9
数据清洗
目的:改善原始数据质量
缺失值处理异常值识别
缺失值:各种原因导致的数据缺失现象,数据样本存在未完整记录的数值
该时间段内没有对应数据
温度
温度/℃
缺失值实例:冷机2017年1月1日冷冻出水温度数据集
异常值:不符合常理或系统运行规律的数值,如取值超出正常范围、连续呈现固定状态等
冷冻水出水温度陡增,不符合领域认知
温度
温度/℃
异常值实例:冷机2017年1月20-22日冷冻出水温度数据集
能源领域中的缺失值
缺失值出现的主要原因:
人工采集错误:数据采集人员疏忽大意等人为因素导致的部分数据没有被记录
采集仪表故障:传感器接触不良、发生故障等原因导致的部分数据没有被采集
数据储存故障:断电或者数据储存设备损坏等原因导致的部分数据没有被储存
10缺失值的影响:
10
缺失值的影响:
个别变量的数据缺失:无法对数据缺失时段的统计规律进行有效分析
某些变量的数据缺失:回归建模过程中缺少这些变量的有效信息,影响模型精度
缺失值处理方法
丢弃
缺失值处理方法
补全
丢弃:缺失值样本的比例较小,不会显著影响数据分析的质量
补全:缺失值样本的比例过大,或者样本采集的成本过高
?补全11
?补全
11
举例:假设目前只有50个历史数据样本可供使用,且其中20个数据样本包含缺失值
?丢弃
单变量补全
单变量补全:用目标变量的数据特征来推断缺失值
均值插补
补全方法
中位数插补
中位数插补
正向/反向时序插补移动平均法插补
单变量补全
多变量补全
?均值/中位数插补:
?均值/中位数插补:
?表中所有有值数据的统计量:
均值:24中位数:25
?T=6和T=7时刻的缺失值由数据集的均值或中位数填补
12
单变量补全
补全方法
单变量补全
多变量补全
均值插补
中位数插补
正向/反向时序插补
移动平均法插补
选取T=8时刻的真实值(
选取T=8时刻的真实值(35)
13
?正向/反向时序插补:
?正向:采用最邻近缺失值的上一时刻数值进行补全:
选取T=5时刻的真实值(30)
?反向:采用最邻近缺失值的下一时刻数值进行补全:
单变量补全
补全方法
单变量补全
多变量补全
均值插补
中位数插补
正向或反向时序插补
移动平均法插补
?移动平均插补:
?移动平均插补:
?固定时间窗口w,计算最邻近缺失值的w个连续数值的均值
?设w=3,则T=6时刻的缺失值:计算T=3、4、5时刻的数据均值
(20+25+30)/3=25
?T=7时刻的缺失值:计算T=4、5时刻的
真实值和T=6时刻的填补值的均值
(25+30+25)/3=27
14
多变量补全
多变量补全:寻找其他参考变量与目标变量的关系来估算缺失值
补全方法
单变量补全
多变量补全
K邻近算法
基于回归思想
?
?基于K近邻的缺失值填充:
?通过参考变
您可能关注的文档
最近下载
- 加气混凝土砌块墙面抹灰技术交底大全.docx VIP
- 六年级上册数学第四单元《解决问题的策略—假设》教学课件(苏教版).pptx VIP
- 【春秋航空 空客A320】ATA 32 起落架-2.pdf VIP
- 《环境工程原理》课后习题答案.pdf VIP
- 路清扫保洁项目策划投标文件.doc VIP
- 补肾化痰通经汤:开启肾虚痰瘀型青春期闭经治疗新路径.docx
- 《高等教育学概论》.docx VIP
- ISO IEC 20000-10-2018 信息技术- 服务管理- 第10部分: 概念和词汇(中文版).pdf
- 人民警察内务条令试题及答案.pdf VIP
- 中国重症肌无力诊断和治疗指南2025.docx VIP
原创力文档


文档评论(0)