第十八章经由观察而学习精品课件.pptVIP

下载本文档

0
0
约6.11千字
约 54页
2018-04-30 发布于河南
举报
版权申诉

第十八章经由观察而学习精品课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第十八章经由观察而学习精品课件

第十八章經由觀察而學習 18.1 學習性代理人的通用模型 18.2 歸納學習法 18.3 決策樹的學習 18.4 使用資訊理論 18.5 學習通用的邏輯表述 18.6 為何學習可行：計算學習理論 18.1 學習性代理人的通用模型一個具有學習特性的代理人，在概念上可分解為如圖18.1所示的四項元件。其中最重要的是區分負責改善內部效能的學習元素，和負責選擇外在行動的效能元素。之前被當成是完整代理人的部份即是一個效能元素；它能取得認知並決定行動。學習元素的設計受到四項主要關鍵問題的影響： ????? 效能元素的哪一個元件需要改善。 ????? 這些元件使用什麼描述方法。 ????? 能得到哪些回饋。 ????? 能得到哪些先驗資訊。元件的表示方法這些元件中的任何一種都可以用本書介紹的表示法表示。已有許多個例子：決定性敘述法，例如競局程式中效能函數的線性加權多項式，和邏輯代理人各元件的比例項（proportional）與一階邏輯敘述；以及機率描述，例如用於決策理論代理人推論元件的信念網路。有用的回饋（available feedback）對一些例如預測行動結果的元件而言，有用的回饋通常能告知代理人何者是正確的結果。亦即，代理人預測特定行動（煞車）將有特定的結果（在10呎內停住），而環境立刻提供一個描述實際正確結果的認知（在15呎內停止）。任何可察覺元件輸出與輸入情況的環境就稱為監督式學習（supervised learning）。先驗知識大部分AI、計算機科學、以及心裡學中的學習研究，都曾研究過這樣的例子：代理人從不具有任何它想學習的知識開始，只具有由經驗獲得其所呈現之例子的方法。雖然這是重要的特例，對一般情況而言卻不一定如此。大部分的人類學習都發生在有充足背景知識的情況下。總結效能元素的七個元件，任一個都可以用數學方法描述成一個函數：例如，相關於環境進化方法的資訊可被描述為從一個環境狀態（目前狀態）到另一個環境狀態（下一個或多個狀態）的函數；一個目標可被描述為從一個狀態到一個布林值（0或1），表示該狀態是否滿足目標的函數。重點是，所有的學習都可被視為學習一個函數的表示法。 18.2 歸納學習法在控制學習之中，學習元素被給定對應於特定輸入的函數正確（或幾近正確）值，並嘗試改變函數的表示法以符合回饋所提供的資訊。更正式的說法為，一個範例是一組（x, f(x)），其中x是輸入，而f(x)是套用x時該函數的輸出。在圖18.2(c)則有一個更複雜的h函數。兩個函數的範例點一致，但若給予其他x作為輸入，則兩者的y值不同。在(d)之中有一個函數故意忽略範例點中的一個，但用簡單函數就可以符合其他的點。因為不知道真正的f，因此對h有很多選擇，但也因為沒有進一步的知識，就沒有理由偏好(b)，(c)，或(d)。任何對於一項假說的偏好超越了與範例的一致性，就稱為一項偏見（bias）。回到關於代理人的討論，假設有一個被教師教導的反射代理人。圖18.3的例子顯示出REFLEX-LEARNING-ELEMENT會更新擁有一序對（percept, action）的全域變數。該項認知可能是棋盤上的位置，而動作可能是由圍棋高手所決定的最佳棋步。本章討論兩種邏輯敘述句的學習方法：決策樹法（decision tree）使用專為學習而明確設計的有限制邏輯敘述句表示法；版本空間法（version-space）較為普遍，但經常很缺乏效率。第19章將討論類神經網路（neural networks），是非線性數值函數的一般表示法。競局評估函數所使用的線性加權多項式是類神經網路的一項特例。 18.3 決策樹的學習決策樹歸納法是最簡單，也是最成功的學習演算法形式之一。不僅是進入歸納式學習法領域一項很好的介紹，同時也易於實行。本節首先談論效能元素，然後說明如何學習它。以決策樹作為效能元素一個決策樹的輸入是一個由屬性的集合所描述的物件或狀態，輸出則是一個”是”或”不是”的決策。因此決策樹是一個布林函數。雖然決策樹也可以描述輸出範圍較大的函數，但為了簡化，通常只注意布林的狀況。決策樹的表示法若決策樹對應於關聯敘述句的集合，一個基本的問題是：決策樹能否表現任何集合。答案是否，因為決策樹隱然受到無法敘述單一物件的限制。也就是說，決策樹的語言基本上是命題式的，其中每個屬性的測試都是一個命題。我們無法使用決策樹表達用到兩個以上不同物件的測試，例如， ? r2 Nearby(r2, r) ?Price(r, p) ? Price(r2, p2) ? Cheaper(p2, p) 由範例歸納決策樹範例（example）是由屬性的值和目的述詞所描述。目的述詞