- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
資料檢視與清理
針對抽樣及統計上容易發生的客觀性偏差, 美國加州大學教授
Tabachnick 和Fidell 在1983年發展出一套「資料清理 ﹙Data Cleaning up ﹚」
技術, 以檢視和修正有問題的數據,穩定推算結論的精確程度。嚴格說起
來,這套技術並非這兩位學者的創見,而是博採眾多學者思考的成果,整理
組織成一套完整的程序,具有十分實用的效益。
本研究者在此將這項技術再進一步發展、詮釋、與介述應用的方法 。
Tabachnick Fide ﹙1983 ﹚對資料清理建議的要旨及特色為:
﹙1 ﹚各種多變項分析幾乎全需借助相關矩陣,而矩陣中相關係數之
值可能因為:
資料正確性; ; ;
是否符合統計假設;而產生高估或低估的現象, 因此宜就以上四方面
檢視資料,作一先期之評估。以檢視資料為手段,而達成校正矩陣、提高
後續多變項分析精確程度的目的。
﹙2 ﹚強調系統化檢視。一般研究者在執行分析,雖然通常也會對原
始資料及基本分配作一檢視,但經常出之粗放,亦不詳細報告結果,對「線
性假設」「異質假設」等,常抱著先驗認可的態度。而 Tabachn ick Fidel
則認為必需一絲不苟,步步逐項檢視,他們雖未提出驚人的新意,卻提供了
系統化的檢視架構。
﹙3 ﹚提供完整檢視程序及方法。每一個檢視項目,均有學者發展出
不同的檢視與處理方法,Tabachnick fidel 縷列各家學說並比較優劣,
說明其適用時機。
﹙4 ﹚強調謹慎態度;追求精確資料而不是操作資料。在檢視處理過
程中,有不少學者發展出人為轉換資料的方式,可以使資料變得很「漂亮」,
卻有損資料真實面貌,Tabachnick Fidel 雖介紹了這些方法,卻一再提示
不宜輕易採用。他們有一句名言: 「淨化資料很重要,但不是要改變它。」
一、檢視內容檢視工具 與清理特異值
Tabachnick Fidel 雖然詳細介紹了檢視和處理資料的內容,但檢視
的工作很繁鉅,非人工能夠達成,必需借電腦的協助 。
本文作者將國內易於取得的SPSS 中可供檢視的程式或指令,與檢視
內容並列於「表1 」中,以明眉目。
表1.
檢視內容 檢視工具
1.資料正確性 Frequencies and ∕or
﹙1 ﹚不合理值 Condescriptive
- 1-
﹙2 ﹚類別分配
﹙3 ﹚樣本分配
2. 迷失資料處理 個別程式選項
3.雙變項偏頗資料處理 R egression 的 Scatter gram
4. 非線性和異質性 同上
5.相依性和一向性 個別程式選項
經過以上檢視 ,如果發現有少數特異值(outlier) ,就應在資料集中將
其刪除 ,是為資料清理 。
二、資料正確性
﹙1 ﹚不合理值
類別資料 :是否無此類別水準 ,如 「性別」出現 「3 」等 。
連續資料 :最大 、最小值合理性 。
﹙2 ﹚類別資料分配
類別細格內 ,若數值 5 ,則此類別水準應考慮合併 。
﹙3 ﹚連續資料樣本分配
是否太偏 ,而嚴重不符常態分配 。當樣本數有限時,不易形成明顯
的常態分配;所謂嚴重不符 ,包括成為「凹」形、或「 』」形等。
三、迷失資料處理
迷失資料百分比是否太高 ?
在一般研究經驗中,八成左右的完整資料均視為可容忍,不必考慮過
多人為操作。
迷失資料的後續處理法有三種 :
1. 樣本全案刪除﹙Listwise Deletion ﹚
2. 變項配對
文档评论(0)