数据挖掘在大型文化综合体运行能耗模式中的应用.docx

数据挖掘在大型文化综合体运行能耗模式中的应用.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1?背景

智能建筑是集现代科学技术之大成的产物,是一个国家综合国力和科技水平的具体表现之一。

数据挖掘(DataMining,简称“DM”)是一项备受瞩目的新兴科技,被誉为大数据处理的骨干技术,集人工智能?机器学习?数据可视化和统计数学于一体的多学科产物。

虽然DM技术已经在建筑领域中使用,但是之前的研究很少充分利用DM技术来发现海量数据集,且很少对建筑智能化系统的运行数据进行挖掘分析。使用DM技术挖掘建筑运行数据库缺乏通用方法,因此本文提出一种适用于使用典型DM技术挖掘建筑运行能耗数据的运行模式。

2?建筑及数据

2.1文化综合体描述

?

某大型文化综合体一期项目主要为市民服务的公共活动中心,规划总用地面积约为12ha,总建筑面积31.2万m2,绿色二星建筑群。一期项目建设内容共有“五馆一廓”六个单体,包含“一个长廊”(即文化长廊)及“五个场馆”(即演艺中心?图书馆?科技馆?美术馆?市民活动中心)。其中,文化长廊作为整个项目的核心空间,统筹衔接五个文化场馆,实现功能的有效互补,形成多元复合的空间布局,成为一个文化综合体,一期效果图如图1所示。

图1某文化综合体效果图

本项目各个单体均为绿色建筑,各个单体内智能化系统较多,主要有安全防范?出入口?建筑设备监控?客流量分析?智能照明?能耗监测?ATSE监测管理?停车?光伏等系统,如图2所示。

2.2数据来源及描述

?

某文化综合体的数据来源于五馆一廊及管控中心的智慧集成平台,包括运维管理平台和能源管理平台。运维管理平台数据主要为众多智能化子系统设备运行情况数据等。其中运维管理平台的数据来源主要各单体的的智能照明?建筑设备?客流量分析?视频监控等智能化系统,能源管理平台数据来源主要包括各单体中的电表?水表及冷热量表数据。

3?数据清洗方法

数据的分析是建立在数据正确的基础之上。然而,建筑物中各个系统数据采集系统中的测量?记录?转换?传输过程的任一环节的故障都会导致数据的缺失或异常;另一方面,当数据采集系统正常,由于特殊事件(如线路检修?消防演习等)引起各个系统的异常变化,也会导致数据异常。如果这些异常数据得不到有效的判断和校正,它们将以伪信息?伪变化的规律提供给绿色建筑的数据分析系统作为参考,进而导致错误的决策。其中能耗数据以有功电能为主,考虑到研究对象为绿色建筑,多有能耗监测平台或智能系统集成平台,数据中异常值较少,且多为维修停电导致数据为空值或0值。针对能耗系统表计数据非减的特点,经对比分析各种算法的优缺点,采用单调序列逻辑检测算法进行异常值的检测,并采用均值插补法进行异常数据处理。

?

3.1异常值检测算法

?

有些变量呈现一种非递减或者非递增的趋势。如电表的表底值就呈现一种非递减的趋势。以呈现非递减趋势的时间序列变量为例,设xt为非递减的时间序列变量,新监测数据xt+1满足xt+1-xt=λ?0时,为非异常数据。然而,由于随机误差的影响,λ可能会出现在一定范围内小于0的情况,即σλ0也是正常的,当λσ时可直接将xt+1判为异常数据。根据概率论的知识,长时间连续出现小于0的情况也是异常的,设置连续次数上限k,若出现连续k次小于0的情况,则数据异常。图3为单调序列逻辑检测法的流程图。

3.2异常值处理

?

采用均值插补法对异常数据进行处理。均值插补,顾名思义就是用调查项中有回答单元的均值替代无回答的缺失值。均值插补法就是分别计算各目标变量中回答单元的均值,然后把各组均值分别作为各变量所有缺失项的插补值,插补值的计算如下:

?

式中,αi为示性变量,αi=1是有回答,αi=0是无回答;n1为回答单元数。此时总体的均值估计为:

?

插补后的样本方差为:

?

式中,n1为回答单元数,s21是回答单元的样本方差。

4?聚类算法

聚类分析(ClusterAnalysis)是根据事物本身的特性研究个体分类的方法。根据分类对象不同分为样品聚类和变量聚类。变量聚类在统计学中又称为R型聚类,常用相似系数来测量变量之间的亲疏程度,在实际中有着广泛的应用,一方面,通过变量聚类可以发现某些变量之间的一些共性,以有利于分析问题和解决问题;另一方面,变量聚类也可以作为某些数据分析的中间过程。变量聚类的算法一般从相似系数矩阵出发,关于变量的谱系聚类过程与从距离矩阵出发,关于样品的谱系聚类过程类似,只是由于相似系数越大,表明变量之间越相似,因此,每次应选取相似矩阵或更新的相似矩阵中主对角线以外的最大元素所对应的两个变量或两个类合并。具体求解方法步骤如下文所示。

?

假设对p个变量X1,X2,…Xp各观测了n次,观测向量为x(j)=(x1j,x2j,…,xnj)T(j=1,2,…,p)。

?

变量的观测向量x(i)与x(j)间的相似性可以用相似系数度量。

?

设x(i)=(x1i,x2i,…,xni

您可能关注的文档

文档评论(0)

丹青 + 关注
实名认证
内容提供者

锄禾日当午 汗滴禾下土

1亿VIP精品文档

相关文档