- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * 此外, 美国的OPAC是一个分布式实时交通信号控制系统, 该方法适用于较拥挤的交通干线 , 曾在美国新泽西公路上测试过; 意大利的UTOPIA系统属于分布式实时交通控制系统, 适合于公共交通比较发达的欧洲国家, 目前在意大利、挪威、 荷兰、 瑞典、 芬兰和丹麦等国应用较多; 法国的PRODYN是一种实时交通控制系统, 但实际应用的不多; 美国的RHODES是实时、 递阶、 最优化的分布式系统, 现大约有20个路口运行着该系统;西班牙的ITACA基于线圈实时收集数据, 在计算机模型中仿真实时优化运行, 实时下达交通控制指令, 在世界多个城市成功运行, 在我国北京和武汉等城市有小规模应用。 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 单路口智能信号控制 1 则有 式中,当括号内的数小于0时,z=0,否则z=1, 且有 定义 将 分为大、较大、中、小和很小5档,对应的周期增量 分别为10s、7s、5s、0s和-5s,则 为即为下一个评价周期内将要采用的新信号周期长度 单路口智能信号控制 1 然后计算 最后计算 j=1,2,3,4 单路口智能信号控制 1 (4)神经网络 在该信号控制系统中,两个神经网络作为控制器处于系统的底层。任何时刻只有一个在工作,而另一个则根据需要(由评价准则确定)处于学习或空闲状态。 输入: 输出:C和 单路口智能信号控制 1 学习样本和训练方式:神经网络的学习样本分两个阶段获取。 第一,在网络运行前,先将交警的指挥经验用规则的形式表示出来,然后用这些准则来训练两个神经网络,训练好的神经网络即可作为信号控制器投入运行。 由于控制信号是4 相位的,信号控制规则的获取比较困难,且控制规则也往往不具备遍历性,因而此时的神经网络性能还不是最优的,还需要在运行过程中逐步进行优化。 第二,在系统运行过程中,每隔一个评价周期(6个信号周期)按照前面所述的方法计算一次输入、输出,训练处于空闲状态的神经网络。 如此重复,一个神经网络投入运行,一个学习 单路口智能信号控制 1 随着时间的推移,训练样本将会越来越多,网络训练也将会越来越困难。 为避免出现“样本爆炸”问题,采取了所谓的“样本截断”法 即事先规定训练样本的规模(如300个,可根据需要任意设定),然后按照“顺序移位”的方式用新样本逐个淘汰旧样本。 单路口智能信号控制 1 神经网络自学习控制方法(简称方法1) 神经网络学习交警控制经验方法(简称方法2) 控制效果比较 2 基于智能体的信号交叉口控制 基于智能体的信号交叉口控制 交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境,将每个路口的交通信号控制器看做一个异质的智能体,非常适合采用“无模型、自学习、数据驱动”的多智能体强化学习方法建模与描述。 自Thorpe 于1997 年首次将强化学习(reinforcement learning, RL)方法应用于交通信号最优化控制以来,多智能体强化学习(multi-agent reinforcement learning,MARL)在区域交通自适应控制领域迅速发展并已有实际应用。 多智能体强化学习:智能体它们单独的和环境进行交互。在一种情况下它们各自优化自己的目标,但这些目标之间有约束;另一种情况下,它们联合起来优化一个主要的目标方程。根据具体的情况会有不同的变化。 基于智能体的信号交叉口控制 2 绝大多数研究以假设的静态随机环境为研究对象,采用完全孤立或部分状态合作的协调机制进行本地路口的最优化控制,这制约了网络交通控制系统的整体效益。近年来,基于动作联动的 MARL 控制方法发展迅速,其以联动协同的方式逼近全局最优的控制策略;同时,算法的验证也由假设的交通网络向现实的交通网络发展。 MARL 控制的演化发展 基于智能体的信号交叉口控制 2 1)MARL控制系统的优势 从控制理论来看, MARL控制可根据控制效果的反馈信息自主学习并优化策略知识,是一种真正的闭环反馈控制。 从控制范围来看,其可精确推理多个路口间的最优联合动作,丰富了区域交通协调控制的内容及形式。 从控制实时性来看,它没有复杂的模型优化模块,采用秒级的即时决策,可实时响应时变交通流的变化。 从系统可拓展性来看,分散式 MARL 控制具有统一的结构模型,可针对特定路网结构和交通流特性进行相应改造。 从系统兼容性来看,MARL控制本身仅需要系统的输入和输出数据,对数据具体采集的技术和形式无要求
原创力文档


文档评论(0)