類別資料分析20世紀的發展之旅.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
類別資料分析20世紀的發展之旅

類別資料分析20世紀的發展之旅 摘自Alan Agresti的 ”An Introduction to Categorical Data Analysis“ 一書第10章 馬瀰嘉 譯 第1節 Pearson(圖一)和Yule(圖二)有關相關性的爭論   類別資料分析發展初期有許多爭論,大部分爭論發生在英國,1900年Karl Pearson(圖一)提出了卡方統計量(chi-squared statistic x2),G. Udny Yule(圖二)提出勝算比(the odds ratio)和相關性測度量(measures of association)。1900年是此爭論的起源時期,在1900年之前,Karl Pearson(圖一)(1857-1936)在統計界就已享有盛名,他是倫敦大學院校統計實驗室的負責人,在他工作的前十年間致力發展偏態的機率分配,稱作Pearson曲線(Pearson curves),並得到相關係數(correlation coefficient)的動差估計量和它的標準差(standard error),此後Francis Galton(圖三)將其擴展應用在線性迴歸(linear regression)。事實上,Pearson(圖一)是位才華洋溢的人,其文章涵蓋了藝術、宗教、哲學、社會主義、婦權運動、物理、遺傳學、優生學和進化論。Pearson(圖一)當初發展卡方檢定的目的是想檢定在Monte Carlo賭場的輪盤賭結果是否隨機,檢驗Pearson曲線配適各種實務資料的好壞及檢定2因子交叉分析表的行變數和列變數是否獨立。以下舉例說明什麼叫做交 叉分析表: 例一(心肌梗塞):針對一群有心肌梗塞的病人將其分成兩組,一組服用安慰劑(placebo),另一組服用阿斯匹靈,為使實驗誤差降至最低,通常在研究中的醫生和病患都不知道病患服用的是哪一種藥(稱此為雙盲實驗),實驗一段時間後看兩組病人各有多少人有發生心肌梗塞,資料如下: 組別 是否發生心肌梗塞 是 否 安慰劑 189 10845 阿斯匹靈 104 10933 來源:Findings from the Aspirin Component of the Ongoing Physicians’ Health Study. N. Engl. J. Med., 318:262-264(1988) 上表中吃安慰劑的11034人中有189人發生心肌梗塞,服用阿斯匹靈藥物的11037人中有104人發生心肌梗塞,試問服用阿斯匹靈是否可降低心肌梗塞發生的機率?   在1900年初期類別資料分析大部份文獻是由口頭上的討論所構成,而內容是討論代表相關性(association)的適當測度量。Pearson(圖一)假設構成交叉分析表(cross-classification tables)的基本假設需連續的雙變量分配,他認為可以用一個測度量,例如線性相關係數(the correlation)來描述連續資料的相關性。在1904年,Pearson(圖一)提出「Contingency」這個字作為資料經過兩類別變數分類後,各細格發生機率與兩變數為獨立時機率的偏離量。「tetrachoric correlation」為資料來自常態分配下被分類至2×2交叉分析表後相關性的最大概似估計量。而 ”mean square contingency coefficient” 是將卡方統計量x2標準化至(0,1)範圍內。   George Udny Yule(圖二)(1871-1951)是和Pearson(圖一)同時代的英國人,發展出另一些方法如複迴歸(multiple regression models)、複相關係數和偏相關係數(multiple correlation coefficient and partial correlation coefficient)。Yule(圖二)在1900至1912年間致力於交叉分析表中相關性的研究,他認為許多類別變數本來就是離散的(discrete)而非由連續變數分類造成的。他不假設資料是連續的,直接以交叉分析表細格中的個數(the cell counts)定義測量度,包括勝算比(the odds ratio)θ和其轉換量使其介於[-1,+1]之間,如今被稱作Yule’s Q。   對於Pearson(圖一)的測度量須假設資料為常態分配,Yule(圖二)有下列的描述 「假設資料呈雙變量常態分配,充其量只能讓我們可想像有兩假設上為連續的隨機變數之間有假想上的相關係數,對我而言,此假設在科學工作上是不需要且不實際的。」Yule(圖二)也提出交叉分析表的邊際相關性和條件相關(marginal association and conditiona

文档评论(0)

2105194781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档