基于maddpg算法的v2g模式电动汽车集群充放电行为优化.docxVIP

下载本文档

4
0
约5.1千字
约 6页
2023-08-05 发布于广东
举报
版权申诉

基于maddpg算法的v2g模式电动汽车集群充放电行为优化.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于maddpg算法的v2g模式电动汽车集群充放电行为优化近年来，电动汽车在世界范围内取得了显著成效，因为它具有清洁环保和降噪清洁的优势。目前,有许多的优化模型和算法应用于电动汽车充放电行为调度中,以满足电网侧或用户侧的利益.文献上述文献提供了电动汽车充电行为优化调度的解决方案,但没有充分挖掘历史用电数据特性以指导电动汽车充放电行为. 近年来,由于具备对大数据的分析处理能力以及精准快速的决策能力,深度强化学习成为研究热点,并广泛应用在电动汽车充放电调度中.文献上述文献提供了电动汽车充放电行为策略的优化方案,但控制策略都是离散化的,缺少灵活性,且少有考虑通过集群内部合作的方式转移和限制峰值负荷的充放电行为优化. 多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法是一种融合博弈与数据处理的算法,由于其在多智能体环境中具备良好的决策能力,成为了多智能体深度强化学习的重要算法之一本文首先基于用户的历史用电数据,根据电动汽车用户群体与网侧双方的需求建立了家用电动汽车集群充放电行为优化调度模型,鼓励用户参与需求响应;其次,通过深度神经网络对大规模复杂数据的特征提取与存储,并利用强化学习算法在控制与决策方面的优势,实现对家用电动汽车充放电调度的在线优化.最后,算例分析表明该算法可以兼顾用户的经济性和舒适性,同时可以转移网侧峰值负荷,并限制峰值负荷的大小. 1 家庭电动汽车的充电作用规划模型 1.1 用户侧通信与电力调度本文的用电场景是一处智能小区,在该小区内,存在多户拥有电动汽车的家庭,住宅中均装有充电装置供各自的电动汽车使用.用户侧通过高级量测体系与电网侧进行双向实时通信,在线交换电价信息和用户的电动汽车充放电情况,并通过用户调度中心参与电力调度.示意图如图1所示. 电动汽车用户可以自行决定出行时间与行驶里程,仅在电动汽车处于在家状态下才被允许参与调度.用户除了可以通过供电公司购电为电动汽车供电外,还可以将电动汽车作为家用储能装置向电网出售电能获取收益. 1.2 电动汽车充放电行为简化调度模型本文将家用电动汽车的调度周期设定为24小时,调度步长为1小时,时段数集合为H={1,…,t,…,24}.电动汽车集合为B={1,…,i,…,N},其中N为电动汽车的数量.在每个时段上,电动汽车的状态分为在线状态和离线状态.电动汽车i在线状态时段集合为电动汽车参与充放电行为优化调度的主要目标是实现电动汽车充放电成本的最小化,同时兼顾用户的舒适性和电网对电动汽车负荷的限制,因此需要尽可能提高用户的综合收益,即综合成本的最小化.用户的综合成本可以表示为公式中: 在变动的电价下,用户的用电成本取决于电价与用电量. 公式中:λ 公式中:p 不舒适成本公式中:δ为用户的不舒适系数;E为电池容量, 公式中:So C 为了防止产生新的负荷高峰,缓解电动汽车集群总充电功率对电网造成的压力,引入高负荷惩罚成本公式中:ρ为惩罚系数,ρ0;l l 公式中:k 1.3 电动汽车充放电模型的描述由于电动汽车集群的充放电过程具备马尔可夫性,也包含用户之间的合作,该过程可以描述为马尔可夫博弈,这是多智能体强化学习算法的基础.在多智能体环境中,由于智能体之间存在着联系,每个智能体的下一状态不仅与当前自身的状态与动作相关,还与其它智能体的状态与动作相关.每个智能体不能完全观测其他智能体的状态和动作,需要根据自身的观测结果从复杂的状态空间中选取对自己更加有利的动作,保证每次决策的优势不断累积,形成优势策略在电动汽车的充放电模型中,每个智能体代表一辆电动汽车,代替用户进行充放电操作与参与环境的交互.电动汽车i在时段t充放电功率p 将每一时刻的电价信息、电动汽车的充放电操作权限和荷电状态设置为状态量.智能体i能够观测到的状态量o 公式中:σ 全局状态量x包含当前时刻所有智能体的观测量,即当前电价和电动汽车集群的状态信息,定义为在执行动作a={a 每个用户的用电行为会受到其他用户的限制,负荷越限后会同时受到惩罚. 2 ddpg动作空间 MADDPG算法源起于确定性行为策略算法(Deep Deterministic Policy Gradient,DDPG),能够在动作空间是连续的情况下,无需对动作空间进行离散化,直接输出一个确定的动作值,从而避免由动作空间离散化而带来的复杂运算 2.1 白噪声机制设计在环境中含有N个智能体,每个智能体仅能观测到环境的局部状态信息,无法得知全局状态,且含有神经网络,网络参数分别为θ={θ 策略网络引入确定性策略替代随机性策略,网络输出从动作的概率分布变为具体的动作,有助于算法在连续动作空间中进行学习.引入白噪声机制,用于提高策略网络在特定环境