- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
能源系统数据预处理能源系统大数据分析理论与实践第二节1
目录能源系统中的数据数据清洗方法数据降维方法数据规范化方法数据转换方法数据分割方法2
数据来源温度传感器水泵电机压力传感器能源系统的数据通常来自传感器的测量信号和执行器的执行信号:
数据的格式和特点能源系统运行数据注意:不是所有运行数据的连续变量都具有严格的连续含义,如定频运行的水泵。4连续数值变量:取值为连续区间类别变量:取值为离散值如:水管流速,房间温湿度等如:设备开关、时间变量频率:50HZ0HZ10相对湿度:[0,1]设备开关状态:{0,1}
数据的表现形式能源系统运行数据的存储:二维数据表5典型建筑运行数据格式分析数据的时序关系分析变量的静态关系采集间隔:秒、分钟、小时、天…实际分析角度:静态关系、时序关系…特定时间点收集到的观测值采集时间
数据存在的问题6能源系统运行机理复杂,数据采集、储存的过程中容易出现各种问题,数据整体质量低,存在缺失值、异常值。因此,需要引入数据清洗方法:正常值缺失值异常值某实际建筑2017年运行数据中:缺失值占比约为8%异常值占比约为5%
数据预处理方法7能源领域中,不同的应用需求对数据有着不同的要求,因此需要引入一系列数据预处理方法,提高后续工作的可靠性:常见数据预处理方法汇总
目录能源系统中的数据数据清洗方法数据降维方法数据规范化方法数据转换方法数据分割方法8
数据清洗9目的:改善原始数据质量缺失值实例:冷机2017年1月1日冷冻出水温度数据集温度/℃冷冻水出水温度陡增,不符合领域认知温度/℃该时间段内没有对应数据缺失值:各种原因导致的数据缺失现象,数据样本存在未完整记录的数值异常值:不符合常理或系统运行规律的数值,如取值超出正常范围、连续呈现固定状态等异常值实例:冷机2017年1月20-22日冷冻出水温度数据集缺失值处理异常值识别
能源领域中的缺失值缺失值出现的主要原因:人工采集错误:数据采集人员疏忽大意等人为因素导致的部分数据没有被记录采集仪表故障:传感器接触不良、发生故障等原因导致的部分数据没有被采集数据储存故障:断电或者数据储存设备损坏等原因导致的部分数据没有被储存缺失值的影响:个别变量的数据缺失:无法对数据缺失时段的统计规律进行有效分析某些变量的数据缺失:回归建模过程中缺少这些变量的有效信息,影响模型精度10
缺失值处理方法11举例:假设目前只有50个历史数据样本可供使用,且其中20个数据样本包含缺失值丢弃补全缺失值处理方法丢弃:缺失值样本的比例较小,不会显著影响数据分析的质量补全:缺失值样本的比例过大,或者样本采集的成本过高丢弃补全
单变量补全单变量补全:用目标变量的数据特征来推断缺失值12均值/中位数插补:表中所有有值数据的统计量:均值:24中位数:25T=6和T=7时刻的缺失值由数据集的均值或中位数填补均值插补补全方法单变量补全多变量补全中位数插补正向/反向时序插补移动平均法插补
单变量补全13正向/反向时序插补:正向:采用最邻近缺失值的上一时刻数值进行补全: 选取T=5时刻的真实值(30)反向:采用最邻近缺失值的下一时刻数值进行补全: 选取T=8时刻的真实值(35)均值插补补全方法单变量补全多变量补全中位数插补正向/反向时序插补移动平均法插补
单变量补全14移动平均插补:固定时间窗口w,计算最邻近缺失值的w个连续数值的均值设w=3,则T=6时刻的缺失值:计算T=3、4、5时刻的数据均值(20+25+30)/3=25T=7时刻的缺失值:计算T=4、5时刻的真实值和T=6时刻的填补值的均值(25+30+25)/3=27均值插补补全方法单变量补全多变量补全中位数插补正向或反向时序插补移动平均法插补
多变量补全多变量补全:寻找其他参考变量与目标变量的关系来估算缺失值15K邻近算法补全方法单变量补全多变量补全基于回归思想基于K近邻的缺失值填充:通过参考变量(较易获得且准确的变量,如时间、温度…)的取值确定样本邻近关系,根据K个最邻近的完整样本数值计算缺失值令K=3。T=6时,参考变量取值为21,最邻近的3个参考变量取值为18、15、14,分别对应T=8、5、9时刻的样本T=6时刻的目标变量:计算对应三个时刻目标变量的均值,即(30+35+30)/3=32
多变量补全16基于回归思想的缺失值填补:?×2K邻近算法补全方法单变量补全多变量补全基于回归思想
异常值人工采集错误:人工输入的疏忽仪表测量误差:仪器测量误差或性能漂移导致,最为常见数据处理错误:运行算法时,一些操作错误可能导致数据出现异常值6.1℃60.1℃T1:6.1℃T2:6.2℃T3:8.2℃……T:42.1℃F:6.1Hz17异常值出现的常见原因:异常值的影响:导致数据挖掘出
原创力文档


文档评论(0)