大用户直购中基于q学习算法的多代理两阶段谈判策略 a two-stage negotiation strategy based on multi-agent using q-learning in direct power purchase with large consumers.pdfVIP

下载本文档

4
0
约2.19万字
约 5页
2017-08-13 发布于上海
举报
版权申诉

大用户直购中基于q学习算法的多代理两阶段谈判策略 a two-stage negotiation strategy based on multi-agent using q-learning in direct power purchase with large consumers.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大用户直购中基于q学习算法的多代理两阶段谈判策略 a two-stage negotiation strategy based on multi-agent using q-learning in direct power purchase with large consumers

第34卷第6期电力系统自动化 V01．34No．6 AutomationofElectricPower Mar．25，2010 2010年3月25日 Systems 大用户直购中基于Q学习算法的多代理两阶段谈判策略张森林1，屈少青1，陈皓勇1，张·浩2，荆朝霞1，匡卫洪1 (1．华南理工大学电力学院，广东省广州市510640I2．西北电网电力交易中心，陕西省西安市710000) 摘要：利用多代理对大用户直购电中不同类型交易者的谈判行为进行了模拟，采取基于历史报价数据的Q学习算法增加了代理的自主学习能力，使代理能根据对手动作及时调整己方报价。此外，为保证市场竞争的公平性，提出了基于“谈判+拍卖”的两阶段谈判机制，给予因对谈判形势估计不足致使谈判破裂但又拥有成本优势的发电商再一次出价的机会，使得合同电价反映出不同发电成本间的真实差异，以此激励发电商以降低成本的方式来换取谈判中的主动权。关键词：一对多谈判；Q学习算法；电力市场；大用户直购电；双边合同 0引言 1 基于多代理的谈判模型《关于完善电力用户与发电企业直接交易试点定义1 谈判模型为{A，P，T，AT。，AActi。)。其中，A={B，S，，S：，…，SⅣ}为所有代理的集合，B 工作有关问题的通知》(电监市场(2009)20号)的出台，对于打破电网垄断格局，进一步完善电价形成机表示大用户代理，S，，S。，…，SN表示参与竞标的N 制，建立竞争、开放的电力市场有着重要的推动作个独立的发电商代理；P={PfIo≤歹≤N}为谈判参用LI]。国外实践表明[2嵋]，大用户与发电商之间通过与方报价集合，P。表示大用户代理的报价，Pj(o 协商达成双边合同能更合理地满足双方对价格的要．『≤N)表示发电商代理．f的报价，且P，∈[P洲。，求，并起到平稳实时电价的作用。 Pi。；]；T为集合A中各代理的谈判时间预期，即允目前，国内关于大用户直购电研究大多集中在许的最大谈判时间，为简化问题，可将其离散化，看宏观政策方面，而关于如何确定双边合同电价的探成双方允许的最大报价次数；AT。表示代理所属类讨还不多见，且大多以博弈论为基本思想来寻求一型：风险规避型、风险中性型和风险偏好型；A船．。。为种均衡解[4呻]，在具体涉及谈判报价的问题上，也并代理所采取的行动：拒绝、接受或反报价，以集合没有给出进一步的说明。 {reject，accept，offer)表示。 Q学习算法是一种强化学习算法，通过学习来根据电力市场中的实际情况，所有代理都是自选择最优行动实现其最终目标的优化算法，已被广利和理性的，且P，T，AT。均为私人信息。因此，上泛应用于电子商务、企业并购等谈判系统中[1争12]。述模型为不完全信息下的博弈模型。在电力市场领域，主要被用于发电商的策略性报用户侧完全开放是建立在电力供应充足的基础上，因此，大用户(或购电商)选择谈判对手时余地较价[Is-Is]。事实上，大用户与发电商就双边合同达成协议是一个非确定性、不完全信息的谈判过程。在大。为此，本文采用一对多谈判模型，即大用户采用双边谈判过程中，可以利用Q学习算法对谈判方报价的滞后回报进行评估，进而给出最优报价[11]。行谈判(见图1)，并针对代理类型采取不同策略。本文采用多代理(multi-agent)模拟双边合同的