卒业论文中间発表.ppt

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
卒业论文中间発表

強化学習と決定木による汎用 エージェントの構成の試み 理学部 数理情報科学科 本田研究室  黄 嵩 学籍番号:B003G025k 発表の流れ ?本研究の背景 ?本研究の目的 ?エージェントの行動様式の学習法  ?強化学習  ?決定木 ?エージェント汎用ルールの習得実験   ?問題設定と前提条件   ?強化学習の結果   ?決定木による汎用ルールのマイニング ?実験Demo ?結論と課題 研究の背景   エージェント(Agent):環境を知覚し、自分の内部には行動規範を持ち、それに従って、自律的に行動する知的システム。   本研究の目的  ?強化学習と決定木による汎用エージェントの構成 強化学習 決定木による汎用ルールのマイニング エージェント汎用ルールの習得実験 強化学習の学習結果 決定木の学習に使用するデータ(強化学習によりサンプリング)          環境 左上 左 左下 上 下 右上 右 右下  1   1  1   1  0  1  0   0  1   1  1   0  1  0  0   1  1   1  1   1  0  1  0   0  1   1  1   0  0  0  0   0  1   1  1   0  1  0  0   1  1   1  1   1  0  1  0   0  1   1  1   0  0  0  0   0            ?             ?             ?                  C4.5によって形成された決定木(汎用ルール)                  左     0  1     左下  上 0 1 0 1 下 左移動  上移動  右移動   0   1  右下    左移動 0 1  右    下移動 0 1  右上   下移動 0 1                              上 右移動 0 1 上移動 右移動 汎用ルールの異なる環境への適用実験   結論    ?強化学習の結果から汎用ルールを決定木として習得し、汎用     エージェントを構成する枠組みを提示した     ?壁に沿って時計回りに移動するエージェントの学習に適用し、     その有効性を確認した   課題     ?難しい或は現実的な問題に対する適用性の追及      ?強化学習の学習法の変更(Profit Sharingなど)によって、汎用    エージェント構成の検証 強化学習とエージェントの関係 機械学習の1つである強化学習は,報酬を利用して方策を最適化することで,エージェントを環境に適応させることを目的とする.強化学習エージェントが得た知識を利用して,方策を改善する手法を提案する. 動的計画法(DP)    最適方策を計算するためのアルゴリズムであり、環境の完全なモデ ルがマルコフ決定過程(MDP)として与えられている場合に適用できる。  マルコフ決定過程(MDP)    行動の決定が現在の状態の観察のみに基づく過程 π0  E  Vπ0 I π1 E  Vπ

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档