- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
卒业论文中间発表
強化学習と決定木による汎用エージェントの構成の試み 理学部 数理情報科学科 本田研究室 黄 嵩 学籍番号:B003G025k 発表の流れ ?本研究の背景 ?本研究の目的 ?エージェントの行動様式の学習法 ?強化学習 ?決定木 ?エージェント汎用ルールの習得実験 ?問題設定と前提条件 ?強化学習の結果 ?決定木による汎用ルールのマイニング ?実験Demo ?結論と課題 研究の背景 エージェント(Agent):環境を知覚し、自分の内部には行動規範を持ち、それに従って、自律的に行動する知的システム。 本研究の目的 ?強化学習と決定木による汎用エージェントの構成 強化学習 決定木による汎用ルールのマイニング エージェント汎用ルールの習得実験 強化学習の学習結果 決定木の学習に使用するデータ(強化学習によりサンプリング) 環境 左上 左 左下 上 下 右上 右 右下 1 1 1 1 0 1 0 0 1 1 1 0 1 0 0 1 1 1 1 1 0 1 0 0 1 1 1 0 0 0 0 0 1 1 1 0 1 0 0 1 1 1 1 1 0 1 0 0 1 1 1 0 0 0 0 0 ? ? ? C4.5によって形成された決定木(汎用ルール) 左 0 1 左下 上 0 1 0 1 下 左移動 上移動 右移動 0 1 右下 左移動 0 1 右 下移動 0 1 右上 下移動 0 1 上 右移動 0 1 上移動 右移動 汎用ルールの異なる環境への適用実験 結論 ?強化学習の結果から汎用ルールを決定木として習得し、汎用 エージェントを構成する枠組みを提示した ?壁に沿って時計回りに移動するエージェントの学習に適用し、 その有効性を確認した 課題 ?難しい或は現実的な問題に対する適用性の追及 ?強化学習の学習法の変更(Profit Sharingなど)によって、汎用 エージェント構成の検証 強化学習とエージェントの関係 機械学習の1つである強化学習は,報酬を利用して方策を最適化することで,エージェントを環境に適応させることを目的とする.強化学習エージェントが得た知識を利用して,方策を改善する手法を提案する. 動的計画法(DP) 最適方策を計算するためのアルゴリズムであり、環境の完全なモデ ルがマルコフ決定過程(MDP)として与えられている場合に適用できる。 マルコフ決定過程(MDP) 行動の決定が現在の状態の観察のみに基づく過程 π0 E Vπ0 I π1 E Vπ
文档评论(0)