资料数值的精简.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
资料数值的精简

* Data Mining * 總結 前置處理階段適當的資料精簡 減少整個探勘過程中所花費的時間和成本 提高所獲取知識的準確性、利用性和可讀性 資料維度的精簡 給定標的資料維度,利用測量法、組合產生策略與組合產生順序,選出具有代表性的資料維度,縮短每一資料記錄的長度 資料記錄的精簡 利用統計抽樣的方法,挑選出部分具代表性的資料記錄,減少資料記錄的數量 資料數值的精簡 利用資料數值分離技術與概念階層,可以分別縮小連續性資料數值與類別性資料數值的值域範圍 資料維度、資料記錄與資料數值在進行精簡上,彼此互相關連和影響 * Data Mining * 隨機列舉策略 隨機列舉策略以單一資料維度為種子(seed),隨機產生可能之資料維度組合;或者是以目前所產生之資料維度為基礎,隨機進行加入其它資料維度或去除舊有的資料維度,而加入或去除之維度數量也可以是隨機決定的。 在作法上,根據所選擇之測量法評核一隨機產生之資料維度組合,如果此資料維度組合並不滿足使用者所設定之終止條件,則隨機產生另一資料維度組合,再進行評核;以此類推,直到滿足使用者所設定之終止條件為止。 * Data Mining * 資料維度組合產生順序 根據資料維度組合產生策略,在尋找符合終止條件或最佳之資料維度組合時,應由較短的資料維度組合進行評核,還是由較長的資料維度組合進行評核? 根據不同處理方向與順序,在使用者所設定之終止條件下,將可能產生不同的資料維度精簡結果。 假設{“平均月收入”, “年齡”}為測量值最高、最佳之資料維度組合,配合完全列舉策略,以下將探討四種資料維度組合產生順序: 漸進式挑選法 (sequential forward generation) 漸進式刪減法 (sequential backward generation) 混合法 (bi-direction generation) 隨機選取法 (randomized generation) * Data Mining * 資料維度組合產生順序 * Data Mining * 漸進式挑選法 產生順序將由晶格下方的{ }往晶格上方,每次多考慮一個資料維度。首先,根據選擇之測量法計算晶格第一層之單一資料維度{平均月收入}、{教育程度}與{年齡},並挑選其中最好的資料維度,假設為{”平均月收入”}。 接著針對晶格第二層之成對的資料維度{平均月收入, 教育程度}、{平均月收入, 年齡}與{教育程度, 年齡}分別計算其測量值,並挑選其中最好的{平均月收入, 年齡}測量值與之前最好的{平均月收入}測量值作比較。假設{平均月收入, 年齡}取代{平均月收入}成為最佳之資料維度組合。 以此類推,進行晶格第三層的處理,假設這層中資料組合的測量值並不高於{平均月收入, 年齡},因此資料維度精簡的結果為{平均月收入, 年齡}。 * Data Mining * 漸進式刪減法 漸進式刪減法由晶格上方的{平均月收入, 教育程度, 年齡}往晶格下方進行,每次少考慮一個資料維度。 首先,根據測量公式,計算精簡任一資料維度後的可能組合{平均月收入, 教育程度}、{平均月收入, 年齡}和{教育程度, 年齡},並挑選其中最好的資料維度{平均月收入, 年齡}。 接著針對晶格單一資料維度{平均月收入}、{教育程度}與{年齡}分別計算其測量值,並與 {平均月收入, 年齡}的測量值比較。假設{平均月收入, 年齡}的測量值較高,因此資料維度精簡的結果為{平均月收入, 年齡}。 * Data Mining * 混合法 混合法結合漸進式挑選法與漸進式刪減法,同時由晶格下方的{ }往晶格上方和由晶格上方的{平均月收入, 教育程度, 年齡}往晶格下方出發。 * Data Mining * 隨機選取法 隨機選取法主要為配合隨機列舉策略所衍生出來。隨機決定由晶格下方或晶格上方出發,配合隨機列舉策略產生任一可能的資料維度組合,並進行評核。 * Data Mining * 資料維度精簡 (1/3) 資料維度的精簡過程 包含選定資料維度測量法來評核資料維度組合 接著,在使用者所給定的終止條件下,選擇資料維度組合產生策略與產生順序來精簡資料集合中的資料維度。 不同的資料維度測量方法、資料維度組合產生策略與資料維度組合產生順序將產生不同的資料維度精簡結果。 * Data Mining * 資料維度精簡 (2/3) ?表示運作上可互相搭配,?表示運作上較無法互相搭配 。 ? 完全列舉策略 經驗法則列舉策略 隨機列舉策略 漸進式挑選法 ? ? ? 漸進式刪減法 ? ? ? 混合法 ? ? ? 隨機選取法 ? ? ? * Data Mining * 上述提到的資料精簡方法: 挑選部分的資料維度來精簡整個資料表,原始資料集

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档