第十八章经由观察而学习精品课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十八章经由观察而学习精品课件

第十八章 經由觀察而學習 18.1 學習性代理人的通用模型 18.2 歸納學習法 18.3 決策樹的學習 18.4 使用資訊理論 18.5 學習通用的邏輯表述 18.6 為何學習可行:計算學習理論 18.1 學習性代理人的通用模型 一個具有學習特性的代理人,在概念上可分解為如圖18.1所示的四項元件。其中最重要的是區分負責改善內部效能的學習元素,和負責選擇外在行動的效能元素。之前被當成是完整代理人的部份即是一個效能元素;它能取得認知並決定行動。 學習元素的設計受到四項主要關鍵問題的影響: ????? 效能元素的哪一個元件需要改善。 ????? 這些元件使用什麼描述方法。 ????? 能得到哪些回饋。 ????? 能得到哪些先驗資訊。 元件的表示方法 這些元件中的任何一種都可以用本書介紹的表示法表示。已有許多個例子:決定性敘述法,例如競局程式中效能函數的線性加權多項式,和邏輯代理人各元件的比例項(proportional)與一階邏輯敘述;以及機率描述,例如用於決策理論代理人推論元件的信念網路。 有用的回饋(available feedback) 對一些例如預測行動結果的元件而言,有用的回饋通常能告知代理人何者是正確的結果。亦即,代理人預測特定行動(煞車)將有特定的結果(在10呎內停住),而環境立刻提供一個描述實際正確結果的認知(在15呎內停止)。任何可察覺元件輸出與輸入情況的環境就稱為監督式學習(supervised learning)。 先驗知識 大部分AI、計算機科學、以及心裡學中的學習研究,都曾研究過這樣的例子:代理人從不具有任何它想學習的知識開始,只具有由經驗獲得其所呈現之例子的方法。雖然這是重要的特例,對一般情況而言卻不一定如此。大部分的人類學習都發生在有充足背景知識的情況下。 總結 效能元素的七個元件,任一個都可以用數學方法描述成一個函數:例如,相關於環境進化方法的資訊可被描述為從一個環境狀態(目前狀態)到另一個環境狀態(下一個或多個狀態)的函數;一個目標可被描述為從一個狀態到一個布林值(0或1),表示該狀態是否滿足目標的函數。重點是,所有的學習都可被視為學習一個函數的表示法。 18.2 歸納學習法 在控制學習之中,學習元素被給定對應於特定輸入的函數正確(或幾近正確)值,並嘗試改變函數的表示法以符合回饋所提供的資訊。更正式的說法為,一個範例是一組(x, f(x)),其中x是輸入,而f(x)是套用x時該函數的輸出。 在圖18.2(c)則有一個更複雜的h函數。兩個函數的範例點一致,但若給予其他x作為輸入,則兩者的y值不同。在(d)之中有一個函數故意忽略範例點中的一個,但用簡單函數就可以符合其他的點。因為不知道真正的f,因此對h有很多選擇,但也因為沒有進一步的知識,就沒有理由偏好(b),(c),或(d)。任何對於一項假說的偏好超越了與範例的一致性,就稱為一項偏見(bias)。 回到關於代理人的討論,假設有一個被教師教導的反射代理人。圖18.3的例子顯示出REFLEX-LEARNING-ELEMENT會更新擁有一序對(percept, action)的全域變數。該項認知可能是棋盤上的位置,而動作可能是由圍棋高手所決定的最佳棋步。 本章討論兩種邏輯敘述句的學習方法:決策樹法(decision tree)使用專為學習而明確設計的有限制邏輯敘述句表示法;版本空間法(version-space)較為普遍,但經常很缺乏效率。第19章將討論類神經網路(neural networks),是非線性數值函數的一般表示法。競局評估函數所使用的線性加權多項式是類神經網路的一項特例。 18.3 決策樹的學習 決策樹歸納法是最簡單,也是最成功的學習演算法形式之一。不僅是進入歸納式學習法領域一項很好的介紹,同時也易於實行。本節首先談論效能元素,然後說明如何學習它。 以決策樹作為效能元素 一個決策樹的輸入是一個由屬性的集合所描述的物件或狀態,輸出則是一個”是”或”不是”的決策。因此決策樹是一個布林函數。雖然決策樹也可以描述輸出範圍較大的函數,但為了簡化,通常只注意布林的狀況。 決策樹的表示法 若決策樹對應於關聯敘述句的集合,一個基本的問題是:決策樹能否表現任何集合。答案是否,因為決策樹隱然受到無法敘述單一物件的限制。也就是說,決策樹的語言基本上是命題式的,其中每個屬性的測試都是一個命題。我們無法使用決策樹表達用到兩個以上不同物件的測試,例如, ? r2 Nearby(r2, r) ?Price(r, p) ? Price(r2, p2) ? Cheaper(p2, p) 由範例歸納決策樹 範例(example)是由屬性的值和目的述詞所描述。目的述詞

文档评论(0)

jgx3536 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档