- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章 處理遺漏值 5.2指定遺漏值 5.3處理遺漏值 使用者可以通過考慮根據資料的以下特徵來確定最好的方法:????? ? 資料集的大小 ? ?含有空格的欄位的數量? ??? ? ?遺漏資訊的總量 在決定使用哪種方法時,使用者也應該考慮帶有遺漏值的欄位的類型。 ? 連續型。對於諸如連續型的數值欄位,使用者應該在建模前就剔除任何非數值的值,因爲如果在數值型欄位中包含空格,那麽許多模型都將無法執行。 ? 離散型。對於諸如set和flag的符號欄位類型,改變遺漏值並不是必要的,但這樣可以增加模型的精確性。 圖5-2 查看某資料集的質量報告 5.3.1處理帶遺漏值的記錄 處理遺漏值有兩種選擇: 使用者可以使用Select節點刪除員工記錄; ? 如果資料集很大,使用者可以在一個Select節點 ? 使用@BLANK和@NULL函數來剔除帶有空格的所有記錄。注意,當使用者使用@BLANK時,用類型節點預先指定空格會很有幫助的。 5.3.2處理帶遺漏值的欄位 對於方法的選擇取決於某一特定屬性中遺漏值數量的多少和該屬性的重要程度。 5.3.2.1. 帶有大量遺漏值的欄位 ??使用者可以用Filter節點來過濾掉有大量遺漏值的欄位; ?? ? 使用者可以不剔除欄位,而是使用類型節點來把這些欄位定位成None。這將把欄位仍保留在資料集中,但又把它們排除在建模之外。 ???????? ? 使用者也可以選擇保留欄位並用諸如平均值這樣有意義的預設值來代替。這種方法將在下一個主題中進一步討論。 5.3.2.2帶有少量遺漏值的欄位 在只有少量遺漏值的情況下,插入值來代替空格是很有用的。常用於確定替代值的四種方法是: ? 使用者可以用類型節點來確保欄位類型只覆蓋了合法 的值,然後對需要替換空格的欄位將Check欄設置成Coerce。詳見“欄位操作節點”一章中“類型節點”。 ? 使用者可以基於某個特定的條件用Filler節點選擇帶有遺漏值的欄位。可以設置條件來測試這些值並用一個具體的值或者由Set Globals節點建立的總體變數來替換它們。詳見“欄位操作節點”一章中“過濾節點”。 ? 使用者可以用類型節點和Filler節點來定義空格和替換它們。首先,使用類型節點指定關於構成遺漏值的資訊;然後,使用Filler節點選擇需要替換的欄位元。例如,如果欄位“Age”是18~65之間的連續變數,但也包含一些間斷和負值,在類型節點的Specify Values對話方塊中選擇白色空白選項並且將負值加入到遺漏值清單中。在Filler節點,選擇欄位“Age”,設置條件@BLANK(@FIELD),然後用運算式-1改變Replace(或者一些其他的數值)。 ? 最理想的選擇是通過訓練類神經網路和建立模型來確定和産生遺漏值的最佳替換值。然後使用者可以通過Filler節點用此值來替換空格。注意,每個值將被替換的欄位元至少需要一個模型,而且值只能被具有充分精確度的模型替換。這種選擇是耗時的,但如果每個欄位的替代值都很好,那它將改善整個模型。 5.4 針對遺漏值的CLEM函數 以下函數常用於Select節點和Filler節點中,以剔除或填補遺漏值: ? @BLANK(FIELD) ? @NULL(FIELD) ? Undef @函數可以同@FIELD函數一起使用以識別一個或者多個欄位中空格或者遺漏值的存在。 5.4.1關於刪除記錄的注意事項 當用Select節點剔除記錄時,注意Clementine語法使用三值邏輯,而且在選擇語句中自動包括遺漏值。 要選擇和包含所有處方藥類型爲C的記錄,應使用到下述選擇語句: ? Drug = ’drugC’ and not(@NULL(Drug)) ? 在這種情況下,Clementine的早期版本把遺漏值排除在外。 ? ISL 2000 * ? ISL 2000 * 在處理遺漏值方面,有些建模技巧比其他通常的方法要好。比如,GRI、C5.0和Apriori就能較好地處理在類型節點上被明確地確定爲遺漏的值。 在Clementine中有兩種類型的遺漏值: ? 系統遺漏值。也被稱作nulls,這些值在資料庫中被留 爲空格,而且在類型節點上它們並不被明確設置爲“遺漏”。系統遺漏值在Clementine中顯示爲$null$。 ?
您可能关注的文档
最近下载
- 车尔尼钢琴初步教程 作品599 教学与弹琴指导_12198815.pdf VIP
- 安全生产月竞赛题库(附参考答案).pptx VIP
- 2025年上海市绿化和市容管理局部分直属事业单位公开招聘笔试历年典型考题(历年真题考点)解题思路附带答案详解(5套).docx
- Unit 4 My friends Friends share第2课时冀教版(三起)(2024)英语三年级上册.pptx VIP
- 起风了sax五线谱.pdf VIP
- 影视话剧剧本_性情男女.docx
- 湘少版三年级上册英语全册教学课件.pptx
- 蚁群算法.ppt VIP
- 江苏开放大学《宏微观经济学》——计分作业2 .doc VIP
- 民族团结铸牢中华民族共同体意识PPT (3).pptx VIP
文档评论(0)