- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
KNN应用之种类型资料对映演算法.ppt
KNN應用之種類型資料對映演算法 指導教授:郭煌政 博士 研究生:林奕森 資四甲 張文馨 簡辰珈 摘要 基於記憶推理是一種運用廣泛的資料探勘技術,要 預測新進案例時,必須與資料集中的案例一一計算 距離,再找出鄰近的k筆案例,最後利用這些案例 推理出新進案例。 以索引架構模擬多維度空間索引資料結構來確定 對映準確度,去計算同欄位間不同類別的彼此之 相似度,這個轉換之方式經實驗證實可以有效的 指出兩個類別彼此之相似度,可以有效減少搜尋 時間,及資料屬性相似度之準確性。 大綱 研究目的 MBR技術之相關概述 MBR技術之相關應用 MBR技術優缺點評析 多維度空間資料結構 相關研究 多維度空間資料結構 概述 距離矩陣概述 定義對映表 (Mapping Table) 對映演算法 (Mapping Algorithm) 結論 未來展望 研究目的 除了利用MBR強大的分類及預測功能外,更 希望藉由演算法,對兩筆記錄資料中的欄位 作位置順序之比對。 (對種類資料轉換為數值資料形態,進而利用 一些高維度的樹狀資料結構,模擬索引機制 使用近似KNN技術,比對新進資料與訓練 資料集在轉換後的準確度。) MBR技術之相關概述 MBR 除了大家比較熟知方法,如使用一些 參數函數去做每筆紀錄運算外,還可以使用 一些統計方面的相關技術去做分類,如 線性回歸等等。 MBR領域之相關應用 MBR已經被成功的應用在一些範圍上的分類 ,早期亦與類神經網路或是人工智慧方面的 應用結合,近期則是為了紀錄與預測顧客購買 商品的行為模式,而和商業技術應用結合。 MBR利用已知的training dataset 來推斷未知 的模型。 MBR技術優缺點評析 MBR之優點 分類結果易於推論 幾乎可以處理任何形式的資料 輸入欄位數量並不影響決定性 訓練資料集易於建立 MBR技術優缺點評析 MBR 之缺點 預測階段計算複雜 訓練資料集必須數量足夠 設定不同距離、組合函數有不同結果 多維度空間資料結構相關研究 Aha提出的演算法是一種基於增加案例的學習 演算法,除了可以同時處理類別型及數值形式 外,更將數值正規化於 [0,1] 這個區間,而在 類別形式之間的距離稱為漢明距離(Hamming distance)。 iDistance也是在多維度空間中尋找出最鄰近K個 的資料結構,將相似度相似的群組對應到單一個 維度,作為對應到某一部份資料之相關聯性。 多維度空間資料結構相關研究 The Principal Component Analysis (PCA)演算法 是被廣泛的應用在高維度資料空間轉換成低維度 資料空間的一種技術,所以,當大部份分部較廣 的資料將由原來所處的維度空間被壓縮並轉換成 較低維度的資料,以方便儲存至高維度的樹狀 資料結構。 多維度空間資料結構概述 為了克服效率問題,建立多維索引為一可行 之設計,可以篩選不必要之計算。本論文將 採用indexing方法,現已有許多研究,查詢 k個 nearest neighbors (k-NN queries), 大多採用tree-based index 之R-tree系列。 距離矩陣概述 在計算兩不同類別屬性相似度時,我們利用 使用者定義方式,定訂出兩筆資料之不同 類別型態欄位,並利用我們提出之演算法 作轉換,計算轉換後兩兩不同類別屬性間 在同一欄位下之相似度。 定義對映表(Mapping Table) 在定義距離矩陣的同時,我們必須定義 出矩陣中不同類別型,兩兩彼此間的 相似度數值,再對轉換的對映表做出 分析與評估。 對映演算法(Mapping Algorithm) 本篇論文中提出一個新的轉換資料型態對映演算法,稱為最鄰近資料先選演算法。 做法:先找出距離矩陣中,兩兩類別屬性距離最大的 值放入空白對映表中,然後再從距離矩陣中剩餘的 類別屬性對映,找出兩個值距離最小者,再分別放入 對映表中先前放入的兩個最大值旁邊。最後再對距離 矩陣中剩餘的類別型態重覆上一步驟之處理,直到 距離矩陣中每一不同類別型態均被選取完畢。 評估三角不等式流程圖 結論 本研究主要內容在於類別型態資料轉換,開始 時定義出兩不同類別資料在同一欄位形成之 距離矩陣,並且
您可能关注的文档
- FDI对城乡收入不均等影响的实证研究.PDF
- Fibonacci数奇数次方的积和式-西北大学学报.doc
- Flux建立稳态场异步电机模型操作流程-北京天源博通科技有限公司.PDF
- G3NB规格说明书.PDF
- Gabor小波分析太赫兹波时间-频率特性的研究-物理学报.PDF
- Gabor小波分析太赫兹波时间-频率特性的研究.PDF
- GB17820天然气-城市生物质燃气产业技术创新战略联盟.doc
- GBT17889.2-1999梯子第2部分要求、试验和标志.doc
- GBTXXXX-XXXX《合金结构钢带状组织评定》标准编制-钢铁标准网.PDF
- GenomiPhi扩增利用FTA技术从血样中获得的人基因组DNA.PDF
文档评论(0)