ㄧ次建立单一变数的距离函数.PPTVIP

  1. 1、本文档共69页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ㄧ次建立单一变数的距离函数

Nearest Neighbor Approaches: Memory-Based Reasoning and Collaborative 記憶基礎推理 報告大綱 一、前言 二、Case Study:到底誰才是鄰居? 三、記憶基礎推理如何運作? 四、如何增進MBR作業效能? 五、Case Study:新聞報導分類 六、反查與準度的範例 七、距離的測量 八、結論 一、前言 前言   人們總是藉著過去的經驗做判斷,例如: 當你聽到說話不捲舌,你會覺得她是台灣人,為什麼? 當醫生要診斷一個病人時,會依據過去的經驗與眼前的症狀來做判斷及比對,為什麼? MBR (Memory-Based reasoning) 以上的敘述都是MBR的原理,只不過是換成了由人工智慧進行比對。根據現有的資料庫,“記憶基礎推理”先找出新資料的“鄰近資料”(Neighbor),然後根據鄰近資料,對新資料進行分析和預測。 關鍵運用(一) MBR不在乎資料的格式 必備要項 (1).距離函數(Distance Function)   -負責判斷兩筆資料差異到底有多大 (2).組合函數(Combination Function)   -將若干相似資料的結果結合,以     產生答案。 關鍵運用(二) MBR的相關應用例子 (1).詐欺案件的判斷 (2).顧客回應預測 (3).最佳醫療措施選擇 (4).顧客反應分類(顧客抱怨單) MBR優點 相較於其他Data Mining技術時,MBR的簡易使用常讓人低估了他的強大能力. 只要定義出距離函數與組合函數,MBR的可以分析任何形式的資料-例如:地理區位、影像、純文字等。 它能同時將新資料和舊資料結合,同時能從舊資料中分析出新的分類項和定義。 二、到底誰才是鄰居? 到底誰是鄰居? Tuxedo與New York的租金 一般人的概念,地理上鄰近的城市,也就是其鄰居,租金應該都差不了多少。   但是妥善運用MBR後,我們將會重新認識並且定義什麼是“鄰居”。 MBR考慮的觀點較為客觀,而非單純是 地理上的相關,而是包含人口數、 房屋價值中位數…等。 圖8.1 到底誰才是真正的鄰居? 作法: (1).從散佈圖中找出最鄰近於目標的點  (2).整合目標資訊 答案:Shelter Island North Salem 是Tuxedo的鄰居 所以,租金是… Average the most common rents of the two neighbors (use midpoint of the range) (625+1250)/2,租金約是$938 Or, pick the point midway between the two median rents: (804+1150)/2, 租金約是$977 三、如何操作MBR? MBR操作 MBR有兩個明顯的分析階段: (1)學習階段-產生歷史資料庫 (2)預測階段-將MBR運用在新資料上 運用MBR的三項前置準備工作: (1)選擇適當的訓練資料集。 (2)找出最具效率的方式表達歷史記錄 (3)設定距離函數、組合函數和鄰近資料集的數目 選擇一個歷史記錄的平衡資料集 定義:現有資料的子群組或是訓練資料集 (Training Set) 限制:訓練資料集必須能涵蓋大部分可能情況,如此新記錄的鄰近資料才能作為良好的預測基礎 作法:建立訓練資料集時,不同類的資料記錄的數目應該要平衡。 Tip:選擇資料組時,除確保約略相等的樣本數之外,每類最好有數十筆。 訓練資料的表示方法(一) MBR在預測效率取決於訓練資料組如何表示。現今最常用的是關聯式資料庫。 需要比對每一筆資料和此筆紀錄的距離,然後才能產生出最接近的鄰近資料集。當訓練集資料集累積越多筆資料時,比對時間將急速上升。 在關聯式資料庫為一筆新紀錄找尋鄰近資料集,雖需要掃描整個資料庫,但還算不會耗時太久;可是如果同時為多筆新紀錄找尋他們的鄰近資料集時,需多次完整掃描整個資料庫,將會嚴重耗用電腦資源 解決之道1:縮減訓練資料集,不使用整個資料庫,見圖8.2 訓練資料的表示方法(二) Distance( )運算是可以帶進任何特定的距離機制,這個運算需要掃描整個資料庫。 此步驟非常耗時,因此,同時保存最相似的表格(解決之道2),視情況加入或刪除記錄,但是這些必須透過其他的程式語言,在SQL環境下無法執行。 四、如何增進MBR作業效率? 增進MBR作業效率 減少歷史資料庫的紀錄數量,“前提”:訓練資料組的大小可以大幅的影響記憶基礎裡作業效率。 作法:找出含有不同分類項的群集,則各級群的中心可當成縮減的訓練資料集。 條件:不同的分類項要離的夠遠,若有重疊或界線不明時,將使MBR產

文档评论(0)

ailuojue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档