能源系统人工智能方法第二章数据预处理.pptVIP

下载本文档

0
0
约8.75千字
约 56页
2024-03-26 发布于广西
举报
版权申诉

能源系统人工智能方法第二章数据预处理.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

样条插值二次样条插值连续光滑，看起来效果还行，但是前两个点之间是直线，这是假设a1为0造成的，同时，曲线末端过于陡峭。二次函数最高项系数为0，导致变成直线，那三次函数最高项系数为0，还是曲线，插值效果应该更好。于是，便有了三次样条插值。3.02.03.01.00.0-1.04.05.06.07.08.09.0*样条插值三次样条插值：三次样条思路与二次样条基本相同，假设有4个点，3个区间，那么需要3个三次样条，每个三次样条为ax3+bx2+cx+d，故总计需要估计12个未知参数。计算方法：1.内部节点处的函数值应该相等。2.函数的第一个端点和最后一个端点，应该分别在第一个方程和最后一个方程中。3.两个函数在节点处的一阶导数应该相等。4.两个函数在节点处的二阶导数应该相等。5.假设端点处的二阶导数为零：a1=0b1=0*以房间相对湿度为例，其可以取[0,1]之间的任意实数。比如，对于设备开关状态变量来说，通常只有0和1两种数值，对应“关”和“开”两种状态，其可能取值只有2个。*比如，可以从时间序列的角度出发，挖掘数据中隐含的时序或动态知识，也可以将每一行当成一组独立的数据样本，分析数据变量间的静态关系。****时间、温度是较准确的值，可以作为参考**即Q1）和75%（即Q3）*即Q1）和75%（即Q3）**即Q1）和75%（即Q3）*即Q1）和75%（即Q3）*举例来说，某一个异常样本可能在每一个变量维度上的取值都在正常范围之内，但是综合到一起便会呈现出明显的异常。与密度指标示意图*样本维度样本很多变量维度变量很多为了提高算法效率，有必要从上述两方面进行数据降维：**基于规则的样本筛选方法通常需要结合领域知识与实际情况，因地制宜地进行设置。*第四章*量纲间的巨大差异将会严重模型求解的效率和效果。因此，有必要在使用数据分析方法之前，对数据进行规范化处理：*量纲间的巨大差异将会严重模型求解的效率和效果。因此，有必要在使用数据分析方法之前，对数据进行规范化处理：****为了避免统计学意义上的完全共线性。完全共线性的含义是通过部分变量的取值可以完全预测其他部分变量的取值，这类现象通常会导致矩阵计算的不稳定性，容易对预测模型质量产生负面影响。****例：对于表中数据*讨论：3-sigma认定的上下限范围要比IQR方法更大，因此，3-sigma方法也是更为保守的一种异常值识别方法。序列目标样本11021532042553064072082593010353σ法示例*3σ法的应用某冷水机组冷却水出水温度分布异常值占比:0.8%-3σ+3σ多变量识别方法很多复杂的异常情况并不能从单一维度进行有效识别多变量识别方法*二维空间异常点示意图基于距离的异常值识别方法基于密度的异常值识别方法注：多变量异常识别方法多通过聚类算法实现。例如，通过k-means聚类实现基于距离的方法，通过DBSCAN聚类实现基于密度的方法。它们将在第三章进行介绍。基于距离基于密度目录能源系统中的数据数据清洗方法数据降维方法数据规范化方法数据转换方法数据分割方法*数据降维方法能源系统运行数据的冗余性：*某能源系统#1数据采集结果…样本数量大样本维度变量维度采集频率高，相邻数据差异小某能源系统#2数据采集结果监测变量为24个样本维度变量维度样本维度降维方法*样本维度降维方法依赖抽样技术：随机抽样：从数据集中随机选择一定比例的数据随机分层采样：对数据集进行划分并对子数据集分别随机抽样随机抽样示意图随机分层抽样示意图随机抽样随机分层采样样本维度降维方法*基于规则的样本筛选在时间维度上，某时刻的数据与前后几分钟的数据间相似度较高。在进行数据降维时，可以只选择每个整点的数据作为样本，提升计算效率基于规则的样本筛选基于规则的样本筛选方法通常需要结合领域知识与实际情况，因地制宜地进行设置变量维度降维方法*变量维度降维方法基于领域知识的方法：基于专家经验选取变量中最相关的变量组合基于统计学方法：筛选出与建模目标变量高度相关的变量过滤式：根据相关性指标对变量进行排序选择包裹式：对不同组合的输入变量进行数据试验获取最佳特征子集；嵌入式：使用机器学习算法确定最优特征变量。注：具体实现过程将在第四章《特征工程》中介绍基于领域知识基于统计方法能耗进水温度出水温度流量目录能源系统中的数据