资料检视与清理.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
資料檢視與清理 針對抽樣及統計上容易發生的客觀性偏差, 美國加州大學教授 Tabachnick 和Fidell 在1983年發展出一套「資料清理 ﹙Data Cleaning up ﹚」 技術, 以檢視和修正有問題的數據,穩定推算結論的精確程度。嚴格說起 來,這套技術並非這兩位學者的創見,而是博採眾多學者思考的成果,整理 組織成一套完整的程序,具有十分實用的效益。 本研究者在此將這項技術再進一步發展、詮釋、與介述應用的方法 。 Tabachnick Fide ﹙1983 ﹚對資料清理建議的要旨及特色為: ﹙1 ﹚各種多變項分析幾乎全需借助相關矩陣,而矩陣中相關係數之 值可能因為: 資料正確性; ; ; 是否符合統計假設;而產生高估或低估的現象, 因此宜就以上四方面 檢視資料,作一先期之評估。以檢視資料為手段,而達成校正矩陣、提高 後續多變項分析精確程度的目的。 ﹙2 ﹚強調系統化檢視。一般研究者在執行分析,雖然通常也會對原 始資料及基本分配作一檢視,但經常出之粗放,亦不詳細報告結果,對「線 性假設」「異質假設」等,常抱著先驗認可的態度。而 Tabachn ick Fidel 則認為必需一絲不苟,步步逐項檢視,他們雖未提出驚人的新意,卻提供了 系統化的檢視架構。 ﹙3 ﹚提供完整檢視程序及方法。每一個檢視項目,均有學者發展出 不同的檢視與處理方法,Tabachnick fidel 縷列各家學說並比較優劣, 說明其適用時機。 ﹙4 ﹚強調謹慎態度;追求精確資料而不是操作資料。在檢視處理過 程中,有不少學者發展出人為轉換資料的方式,可以使資料變得很「漂亮」, 卻有損資料真實面貌,Tabachnick Fidel 雖介紹了這些方法,卻一再提示 不宜輕易採用。他們有一句名言: 「淨化資料很重要,但不是要改變它。」 一、檢視內容檢視工具 與清理特異值 Tabachnick Fidel 雖然詳細介紹了檢視和處理資料的內容,但檢視 的工作很繁鉅,非人工能夠達成,必需借電腦的協助 。 本文作者將國內易於取得的SPSS 中可供檢視的程式或指令,與檢視 內容並列於「表1 」中,以明眉目。 表1. 檢視內容 檢視工具 1.資料正確性 Frequencies and ∕or ﹙1 ﹚不合理值 Condescriptive - 1- ﹙2 ﹚類別分配 ﹙3 ﹚樣本分配 2. 迷失資料處理 個別程式選項 3.雙變項偏頗資料處理 R egression 的 Scatter gram 4. 非線性和異質性 同上 5.相依性和一向性 個別程式選項 經過以上檢視 ,如果發現有少數特異值(outlier) ,就應在資料集中將 其刪除 ,是為資料清理 。 二、資料正確性 ﹙1 ﹚不合理值 類別資料 :是否無此類別水準 ,如 「性別」出現 「3 」等 。 連續資料 :最大 、最小值合理性 。 ﹙2 ﹚類別資料分配 類別細格內 ,若數值 5 ,則此類別水準應考慮合併 。 ﹙3 ﹚連續資料樣本分配 是否太偏 ,而嚴重不符常態分配 。當樣本數有限時,不易形成明顯 的常態分配;所謂嚴重不符 ,包括成為「凹」形、或「 』」形等。 三、迷失資料處理 迷失資料百分比是否太高 ? 在一般研究經驗中,八成左右的完整資料均視為可容忍,不必考慮過 多人為操作。 迷失資料的後續處理法有三種 : 1. 樣本全案刪除﹙Listwise Deletion ﹚ 2. 變項配對

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档