ㄧ次建立单一变数的距离函数.PPTVIP

下载本文档

1
0
约9.9千字
约 69页
2018-11-22 发布于天津
举报
版权申诉

ㄧ次建立单一变数的距离函数.PPT

1、本文档共69页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ㄧ次建立单一变数的距离函数

Nearest Neighbor Approaches:Memory-Based Reasoning and Collaborative記憶基礎推理報告大綱一、前言二、Case Study：到底誰才是鄰居？三、記憶基礎推理如何運作? 四、如何增進MBR作業效能? 五、Case Study：新聞報導分類六、反查與準度的範例七、距離的測量八、結論一、前言前言　　人們總是藉著過去的經驗做判斷，例如: 當你聽到說話不捲舌,你會覺得她是台灣人，為什麼？當醫生要診斷一個病人時，會依據過去的經驗與眼前的症狀來做判斷及比對，為什麼？ MBR (Memory-Based reasoning) 以上的敘述都是MBR的原理，只不過是換成了由人工智慧進行比對。根據現有的資料庫，“記憶基礎推理”先找出新資料的“鄰近資料”（Neighbor），然後根據鄰近資料，對新資料進行分析和預測。關鍵運用(一) MBR不在乎資料的格式必備要項 (1).距離函數(Distance Function) 　　－負責判斷兩筆資料差異到底有多大 (2).組合函數(Combination Function) 　　－將若干相似資料的結果結合，以　　　　產生答案。關鍵運用(二) MBR的相關應用例子 (1).詐欺案件的判斷 (2).顧客回應預測 (3).最佳醫療措施選擇 (4).顧客反應分類(顧客抱怨單) MBR優點相較於其他Data Mining技術時，MBR的簡易使用常讓人低估了他的強大能力. 只要定義出距離函數與組合函數，MBR的可以分析任何形式的資料-例如:地理區位、影像、純文字等。它能同時將新資料和舊資料結合，同時能從舊資料中分析出新的分類項和定義。二、到底誰才是鄰居？到底誰是鄰居？ Tuxedo與New York的租金一般人的概念，地理上鄰近的城市，也就是其鄰居，租金應該都差不了多少。　但是妥善運用MBR後，我們將會重新認識並且定義什麼是“鄰居”。 MBR考慮的觀點較為客觀，而非單純是地理上的相關，而是包含人口數、房屋價值中位數…等。圖8.1 到底誰才是真正的鄰居？作法： (1).從散佈圖中找出最鄰近於目標的點　 (2).整合目標資訊答案:Shelter Island North Salem 是Tuxedo的鄰居所以，租金是… Average the most common rents of the two neighbors (use midpoint of the range) (625+1250)/2,租金約是$938 Or, pick the point midway between the two median rents: (804+1150)/2, 租金約是$977 三、如何操作MBR？ MBR操作 MBR有兩個明顯的分析階段: (1)學習階段-產生歷史資料庫 (2)預測階段-將MBR運用在新資料上運用MBR的三項前置準備工作: (1)選擇適當的訓練資料集。 (2)找出最具效率的方式表達歷史記錄 (3)設定距離函數、組合函數和鄰近資料集的數目選擇一個歷史記錄的平衡資料集定義:現有資料的子群組或是訓練資料集 (Training Set) 限制:訓練資料集必須能涵蓋大部分可能情況，如此新記錄的鄰近資料才能作為良好的預測基礎作法:建立訓練資料集時，不同類的資料記錄的數目應該要平衡。 Tip:選擇資料組時，除確保約略相等的樣本數之外，每類最好有數十筆。訓練資料的表示方法(一) MBR在預測效率取決於訓練資料組如何表示。現今最常用的是關聯式資料庫。需要比對每一筆資料和此筆紀錄的距離，然後才能產生出最接近的鄰近資料集。當訓練集資料集累積越多筆資料時，比對時間將急速上升。在關聯式資料庫為一筆新紀錄找尋鄰近資料集，雖需要掃描整個資料庫，但還算不會耗時太久；可是如果同時為多筆新紀錄找尋他們的鄰近資料集時，需多次完整掃描整個資料庫，將會嚴重耗用電腦資源解決之道1:縮減訓練資料集，不使用整個資料庫，見圖8.2 訓練資料的表示方法(二) Distance( )運算是可以帶進任何特定的距離機制，這個運算需要掃描整個資料庫。此步驟非常耗時，因此，同時保存最相似的表格(解決之道2)，視情況加入或刪除記錄，但是這些必須透過其他的程式語言，在SQL環境下無法執行。四、如何增進MBR作業效率? 增進MBR作業效率減少歷史資料庫的紀錄數量，“前提”：訓練資料組的大小可以大幅的影響記憶基礎裡作業效率。作法：找出含有不同分類項的群集，則各級群的中心可當成縮減的訓練資料集。條件：不同的分類項要離的夠遠，若有重疊或界線不明時，將使MBR產