第十七章进行复杂决策.pptVIP

下载本文档

2
0
约3.23千字
约 34页
2018-03-18 发布于天津
举报
版权申诉

第十七章进行复杂决策.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第十七章进行复杂决策

第十七章進行複雜決策 17.1 連續決策問題 17.2 數值疊代 17.3 策略疊代 17.4 決策理論代理人之設計 17.5 動態信念網路 17.6 動態決策網路 17.1 連續決策問題假設一位代理人處於圖17.1的環境中。從start狀態開始，代理人必須執行一連串的行為。當代理人帶達標示為+1或-1的狀態時，該環境就結束。在每個位置可採取的行為稱作North, South, East, 和West。假設代理人知道本身目前由哪一個狀態起始，而且知道所有行為對整體狀態的影響。事實上，若給予代理人任何感應器提供的額外資訊，代理人就有機會在每個步驟之後選擇新的動作。因此需要一個更像第13章所介紹之條件規劃演算法的方法，而非第3章的搜尋演算法。當然，這些都必須擴展到能處理機率和功效。從狀態到行動的完整對應關係稱為策略（policy）。已知一個策略，就可以計算因為策略所產生之可能的環境歷史，以及環境歷史的預期功效。然而，問題並非計算最佳行動序列，而是計算最佳行為--也就是說，可造成最高預期功效的策略。對於圖17.1所描述的環境，最佳策略顯示於圖17.2(a)。一旦從轉移模型和功效函數計算出策略，決定該做什麼就顯得很簡單。策略明確表達代理人函數，因此是簡單反射代理人（simple reflex agent）的一項描述，用功效基礎代理人所使用的資訊計算。圖17.3顯示相關的代理人設計。在資訊可得的隨機環境中，已知一個轉移模型，則計算最佳策略的問題被稱為Markov決策問題（Markov Decision Problem, MDP），這是根據俄國統據學家Andrei A. Markov的名字。更精確地說法是，若任意已知狀態的轉移機率只取決於該狀態，且不與之前的歷史過程相關，則可說Markov特性成立。以下兩節介紹在Markov決策問題中計算最佳策略的演算法。 17.2 數值疊代（Value iteration）在本節當中，我們介紹一個計算最佳策略的演算法，稱為數值疊代（value iteration）。基本觀念是計算每個狀態的功效，U(state)，並用狀態的功效選擇每個狀態的最佳行動。計算U(state)的困難部份是不知道一個動作會產生什麼結果。想像一序列的動作如同一棵產生可能發生之歷史的樹，以目前的狀態作為根節點，由根節點到葉節點的路徑表示一個狀態組成的可能歷史過程。演算法VALUE-ITERATION，顯示於圖17.4。在演算法的每個疊代步驟中，一些狀態的功效值被呈現在圖17.5。數值疊代被允許用多長的時間執行？是否要求值要收斂？這些都是重要的問題。有兩種明顯的方法可用來評估數值疊代的程序。第一種是使用功效值相較於正確值的RMS誤差（RMS error）（RMS表示”空間平均值平方”, “room mean square”）。第二種方法假設所評估的功效值本身並不重要—重要的是其引用的策略。圖17.6說明當數值疊代程序進行時，兩種評量如何趨近於零。請注意該策略（由一個可能功效的離散有限集合選出）遠早於功效評估收斂到其正確值，就已成為確實最佳策略。 17.3策略疊代（Policy Iteration）策略疊代演算法之運作是藉由選取一個策略、然後根據給定的策略來計算每個狀態的功效。與數值疊代做比較，策略疊代的基本觀念是價值測定應該比數值疊代簡單，因為每個狀態的行為皆被該策略固定住。策略疊代的演算法列於圖17.7。 17.4決策理論代理人之設計要敘述一個全面的代理人設計方法，用於具有不確定性的環境中。同時結合信念與決策網路，以及稍早提到的連續決策問題的技術。此方法指出狀態空間很大的問題，採用將狀態描述分解為一組隨機變數的做法，很像第四部份介紹的規劃演算法（planning algorithms），使用邏輯表示法分解搜尋演算法所使用的狀態空間。理性代理人的決策循環（decision cycle）圖17.8重複概要的代理人設計，用這種方法的理性代理人設計首先出現在圖14.1。在每個步驟，該代理人所完成的程序稱為決策循環。本章將更嚴謹地製作該循環的各部份。從第一個步驟開始，用來決定目前在環境中的狀態。已知目前狀態的機率分配，進行決策循環的其餘部份就很簡單，需要向前投影（projecting forward）可執行之行動的可能結果，並選擇有最大預期功效的行動。信念更新等式也可用來設計一個只能停留在狀態變數目前信念向量的代理人。完整的設計列於圖17.9。雖然這個公式看起來很複雜，但只是將圖17.8的基本設計具體化。再者，出現在各種表示式的條件資訊正好就是所預期的。未知環境中的感應稍早定義過感應器模型P(Et|Xt)，是已知環境中一個狀態的