- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
台東大學教育學報
第十九卷第一期 131~150 頁 2008 年 6 月
極端值判斷方法簡介
譚克平
國立台灣師範大學科學教育研究所副教授
近代統計學發展迅速,建立統計模式的方法愈來愈多,教育研究者應用統計來建立
模式的研究方式,亦漸趨流行,所建立的模 式更愈趨複雜。可是,許多研究者在進行資
料分析前,常會忽略檢查資料中是否有極端值存在;而且在中文常見的心理或教育的期
刊中,也少見這方面的報導。然而,無論是從較傳統的描述性資料分析,或是常見的迴
歸模式,以及日益普遍的結構方程模式與多 階層模式等方法,如果在分析與建立模式的
過程中忽略了極端值的存在,所得分析結果或所建立的模式可能就不會正確,後續的詮
釋或者是理論的建立也就會有瑕疵。
對應用研究而言,資料中是否存在極端值,可能會嚴重影響到資料分析的結果,甚
至會影響到模式建立的正確性。目前,一般的應用研究鮮少報導極端值的檢查,這可能
是因為很多量化的研究者並不清楚極端值的重要性,或者是不清楚如何檢查極端值。本
文的主要目的,是希望能初步介紹這方面的知識,喚起研究者對極端值的重視。
Hampel identifer
關鍵字:極端值、標準化分數、 、盒狀圖、截尾平均值
極端值為何會被忽略?可能原因有二:第一個原因可能是研究者不清楚極端
值的存在可能會嚴重影響到資料分析的結果,以致於讓研究者做出不正確的詮
釋;另外一個原因,則可能是因為應用研究者不清楚應該如何判斷極端值,而且
一般的應用統計教科書,並沒有討論到此議題,即使有,亦著墨不多,這包括一
些大專界廣為採用的統計教科書在內(如林清山,1992)。其實,統計學界已有
大量關於極端值的文獻,甚至已經有這方面的專門著作(如 Barnett Lewis, 1994;
Hawkins, 1980 ),因此本文的主要目的是希望能向有興趣的研究者初步介紹極端
值的判斷方法,藉此喚起更多研究者留意此一主題。
本文首先交代極端值的類型,然後舉例說明極端值的重要性,接著會扼要說
明極端值的來源,並介紹幾種比較精簡的極端值的判斷方法。介紹時,會舉出一
些實際例子以資說明,並儘可能說明如何使用 SAS 統計軟體對相關的資料執行極
131
4.5 z-ww290-04 7 校 CB-CB-CB-CB-CB-CB-CB
2008, 19(1), pp.131-150
端值的判斷。此外,本文還會討論在檢查到極端值之後,可以選擇什麼方案做資
料處理,最後以綜合討論作結。
壹、極端值的類型
一般而言,極端值又可分為單變量的極端值(univariate outlier )與多變量的
極端值(multivariate outlier )兩種。單變量的極端值,指的是某一個觀察值與其他
觀察值的數值呈現很大的差異。至於多變量的極端值,指的是在超過一個變數的
情況下,某一筆觀察值的組合與其他觀察值的組合呈現很大的差異。例如人的身
高是一個變數,人的年齡是另外一個變數,假設已知某一人身高 167 公分,這高
度本身可能並不算是特別高,但如果得知該身高是測量自一位 6 歲的孩童,則綜
合這兩個資訊,卻幾乎可以肯定該高度在同年齡者當中應該是一個與眾不同的觀
察值組合;換句話說,它是一個(多變量的)極端值。由於本文的目的是初步介
紹極端值,因此只著重於介紹如何檢驗出單變量的極端值。至於多變量極端值的
檢查,在文後的討論中會略為說明,其細節需要另外的專文介紹。
貳、極端值的重要性
極端值又稱為離群值(outlier 或 extreme value ),一般是指某一個觀察值與其
文档评论(0)