极端值判断方法简介要领.pdfVIP

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
台東大學教育學報 第十九卷第一期 131~150 頁 2008 年 6 月 極端值判斷方法簡介 譚克平 國立台灣師範大學科學教育研究所副教授 近代統計學發展迅速,建立統計模式的方法愈來愈多,教育研究者應用統計來建立 模式的研究方式,亦漸趨流行,所建立的模 式更愈趨複雜。可是,許多研究者在進行資 料分析前,常會忽略檢查資料中是否有極端值存在;而且在中文常見的心理或教育的期 刊中,也少見這方面的報導。然而,無論是從較傳統的描述性資料分析,或是常見的迴 歸模式,以及日益普遍的結構方程模式與多 階層模式等方法,如果在分析與建立模式的 過程中忽略了極端值的存在,所得分析結果或所建立的模式可能就不會正確,後續的詮 釋或者是理論的建立也就會有瑕疵。 對應用研究而言,資料中是否存在極端值,可能會嚴重影響到資料分析的結果,甚 至會影響到模式建立的正確性。目前,一般的應用研究鮮少報導極端值的檢查,這可能 是因為很多量化的研究者並不清楚極端值的重要性,或者是不清楚如何檢查極端值。本 文的主要目的,是希望能初步介紹這方面的知識,喚起研究者對極端值的重視。 Hampel identifer 關鍵字:極端值、標準化分數、 、盒狀圖、截尾平均值 極端值為何會被忽略?可能原因有二:第一個原因可能是研究者不清楚極端 值的存在可能會嚴重影響到資料分析的結果,以致於讓研究者做出不正確的詮 釋;另外一個原因,則可能是因為應用研究者不清楚應該如何判斷極端值,而且 一般的應用統計教科書,並沒有討論到此議題,即使有,亦著墨不多,這包括一 些大專界廣為採用的統計教科書在內(如林清山,1992)。其實,統計學界已有 大量關於極端值的文獻,甚至已經有這方面的專門著作(如 Barnett Lewis, 1994; Hawkins, 1980 ),因此本文的主要目的是希望能向有興趣的研究者初步介紹極端 值的判斷方法,藉此喚起更多研究者留意此一主題。 本文首先交代極端值的類型,然後舉例說明極端值的重要性,接著會扼要說 明極端值的來源,並介紹幾種比較精簡的極端值的判斷方法。介紹時,會舉出一 些實際例子以資說明,並儘可能說明如何使用 SAS 統計軟體對相關的資料執行極 131 4.5 z-ww290-04 7 校 CB-CB-CB-CB-CB-CB-CB 2008, 19(1), pp.131-150 端值的判斷。此外,本文還會討論在檢查到極端值之後,可以選擇什麼方案做資 料處理,最後以綜合討論作結。 壹、極端值的類型 一般而言,極端值又可分為單變量的極端值(univariate outlier )與多變量的 極端值(multivariate outlier )兩種。單變量的極端值,指的是某一個觀察值與其他 觀察值的數值呈現很大的差異。至於多變量的極端值,指的是在超過一個變數的 情況下,某一筆觀察值的組合與其他觀察值的組合呈現很大的差異。例如人的身 高是一個變數,人的年齡是另外一個變數,假設已知某一人身高 167 公分,這高 度本身可能並不算是特別高,但如果得知該身高是測量自一位 6 歲的孩童,則綜 合這兩個資訊,卻幾乎可以肯定該高度在同年齡者當中應該是一個與眾不同的觀 察值組合;換句話說,它是一個(多變量的)極端值。由於本文的目的是初步介 紹極端值,因此只著重於介紹如何檢驗出單變量的極端值。至於多變量極端值的 檢查,在文後的討論中會略為說明,其細節需要另外的專文介紹。 貳、極端值的重要性 極端值又稱為離群值(outlier 或 extreme value ),一般是指某一個觀察值與其

文档评论(0)

00625 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档