CN119292061A 基于深度强化学习的hvac系统温度控制与能耗优化方法（北京建筑大学）.docxVIP

下载本文档

0
0
约2.17万字
约 35页
2026-01-24 发布于重庆
举报

CN119292061A 基于深度强化学习的hvac系统温度控制与能耗优化方法（北京建筑大学）.docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119292061A(43)申请公布日2025.01.10

(21)申请号202411402557.8

(22)申请日2024.10.09

(71)申请人北京建筑大学

地址100044北京市西城区展览馆路1号

(72)发明人谭志张琛

(74)专利代理机构北京市商泰律师事务所

11255

专利代理师刘源

(51)Int.CI.

G05B13/04(2006.01)

F24F11/46(2018.01)

GO6N3/006(2023.01)

GO6N3/045(2023.01)

GO6N3/084(2023.01)

GO6N3/092(2023.01)

权利要求书2页说明书11页附图6页

(54)发明名称

AHA行步的面

(57)摘要

CN119292061A本发明提供一种基于深度强化学习的HVAC系统温度控制与能耗优化方法，通过基于熵的数据筛选方法，策略评估模块和设计奖励函数实现了在外部条件干扰下实现HVAC系统温度控制与能耗优化。基于熵的数据筛选方法通过误差公式计算数据对于智能体训练的价值，将高价值数据反复用于智能体的训练，增强训练效果；策略评估模块是在双Q结构上进一步解决Q值的高估问题，修正Q值的输出，降低了随机性Q值的影响，还将策略与实际动作的正则化加入到损失函数更新过程，消除了随机噪声对于Q值的影响，确保策略输出的准确性；设计控制温度和优化能耗的奖励函数，能使智能体能平衡多任务之间的矛盾，寻找多目标任务交叉的最优解使HVAC系统能够

CN119292061A

CN119292061A权利要求书1/2页

1.基于深度强化学习的HVAC系统温度控制与能耗优化方法，其特征在于，包括：

S1基于获取的环境参数和暖通空调控制状态数据，根据温度控制与能耗优化的要求计算获得控制模型的奖励函数；

所述控制模型包括第一支路、第二支路和智能体；所述第一支路包括沿数据流方向依次设置的奖励函数、基于熵的数据筛选层，所述基于熵的数据筛选层用于获得高价值数据，并输送到所述第二支路；所述第二支路包括沿数据流方向依次设置的行动者评论家网络和策略评估层，所述行动者评论家网络包括数据流方向依次设置的行动者网络和评论家网络，所述行动者网络具有一个动作策略网络，所述评论家网络具有四个Q网络；

所述评论家网络包括相互并行设置的评论家第一Q网络和评论家第二Q网络；所述评论家第一Q网络和评论家第二Q网络分别包括两个子网络，所述评论家第一Q网络的两个子网络用于分别计算获得Q?值和Q?值；评论家第二Q网络的子网络分别用于计算获得minQ值，使得所述行动者评论家网络能够通过Q1值、Q?值和minQ值计算获得用于反向更新所述评论家第一Q网络和评论家第二Q网络；

所述奖励函数包括：

通过式

R=R+B温度(1)

构建总体奖励函数；式中，能耗奖励值R用温度奖励值R分别通过式

R=W平均W当前平均(2)

(3)

计算获得；β为调节温度奖励占总奖励的比例；式(2)中，W平均是指对比的控制算法控制下的系统平均能耗，W当平均是指所采用算法启动到当前的平均能耗；式(3)中，T指的是当前温度，T设定值是指所要保持温度区间的平均温度，T设限是指温度区间的最高温度；

S2将暖通空调所属建筑物内的实际环境数据和暖通空调控制状态数据输入到所述奖励函数中，计算获得控制系统的奖励值r,通过基于熵的数据筛选层对计算获得奖励值r对应的实际环境数据进行筛选处理，获得高价值数据；

S3初始化所述评论家网络的四个Q网络，初始化行动者网络，并将初始化后的数据返回经验池；

S4在每个时间步中，获取智能体在当前环境中的状态s,在当前状态st中选择并执行动作a,将当前状态s和动作a输入到所述奖励函数中获得奖励值r,使得智能体转移到执行动作a后的新状态st+1;

S5评估步骤S4的执行效果，若执行效果低于第一预设阈值，则重新执行步骤S4,否则，将执行结果存入经验池；

CN119292061A 基于深度强化学习的hvac系统温度控制与能耗优化方法（北京建筑大学）.docxVIP