卒业论文中间発表.ppt

下载文档 降价啦

1
0
约5.51千字
约 23页
2017-03-06 发布于天津
举报
版权申诉
保障服务

卒业论文中间発表.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

卒业论文中间発表

強化学習と決定木による汎用エージェントの構成の試み理学部　数理情報科学科本田研究室　　黄　嵩学籍番号：B003G025k 発表の流れ ?本研究の背景 ?本研究の目的 ?エージェントの行動様式の学習法　?強化学習　?決定木 ?エージェント汎用ルールの習得実験　　?問題設定と前提条件　　?強化学習の結果　　?決定木による汎用ルールのマイニング ?実験Demo ?結論と課題研究の背景　　エージェント（Agent)：環境を知覚し、自分の内部には行動規範を持ち、それに従って、自律的に行動する知的システム。　本研究の目的　?強化学習と決定木による汎用エージェントの構成強化学習決定木による汎用ルールのマイニングエージェント汎用ルールの習得実験強化学習の学習結果決定木の学習に使用するデータ(強化学習によりサンプリング) 　　　　　　　　　環境左上　左　左下　上　下　右上　右　右下　1　　　1　　1　　　1　　0　　1　　0　　　0 　1　　　1　　1　　　0　　1　　0　　0　　　1 　1　　　1　　1　　　1　　0　　1　　0　　　0 　1　　　1　　1　　　0　　0　　0　　0　　　0 　1　　　1　　1　　　0　　1　　0　　0　　　1 　1　　　1　　1　　　1　　0　　1　　0　　　0 　1　　　1　　1　　　0　　0　　0　　0　　　0 　　　　　　　　　　 ? 　　　　　　　　　　　 ? 　　　　　　　　　　　 ? 　　　　　　　　　　　　　　　　 C4.5によって形成された決定木（汎用ルール）　　　　　　　　　　　　　　　　左　　　　0 　1 　　　左下　上 0 1 0 1 下左移動　上移動　右移動　 0 　 1 　右下　　　左移動 0 1 　右　　　下移動 0 1 　右上　　下移動 0 1 　　　　　　　　　　　　　　　　　　　　　　　　　　　　上右移動 0 1 上移動　右移動汎用ルールの異なる環境への適用実験　　結論　　　?強化学習の結果から汎用ルールを決定木として習得し、汎用　　　　エージェントを構成する枠組みを提示した　　　 ?壁に沿って時計回りに移動するエージェントの学習に適用し、　　　その有効性を確認した　課題　　　 ?難しい或は現実的な問題に対する適用性の追及　　　　 ?強化学習の学習法の変更（Profit Sharingなど)によって、汎用　　　エージェント構成の検証強化学習とエージェントの関係機械学習の1つである強化学習は，報酬を利用して方策を最適化することで，エージェントを環境に適応させることを目的とする．強化学習エージェントが得た知識を利用して，方策を改善する手法を提案する．動的計画法（DP）　　最適方策を計算するためのアルゴリズムであり、環境の完全なモデルがマルコフ決定過程(MDP)として与えられている場合に適用できる。　マルコフ決定過程（MDP) 　　　行動の決定が現在の状態の観察のみに基づく過程 π0　　E　　Vπ0　I　π１　E　　Vπ