- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分層隨機抽樣
民意調查的抽樣 蔡佳泓 政大選舉研究中心 副研究員 課程目標 抽樣原理 非隨機抽樣 隨機抽樣 等距抽樣 分層隨機抽樣 多階段集群抽樣 抽樣原理 由於我們不可能訪問母體中所有的個體,所以必須進行抽樣。 例: 台灣地區七歲到十二歲的小孩在除夕夜平均每人收了多少壓歲錢? 石門水庫管理當局想要知道到底水庫裡有多少魚 ? Selection Bias 某些可能研究對象並不在抽樣所得的樣本之中,或是某些可能研究對象較其他更容易被抽樣,造成選樣偏誤。 例如,研究成人之中有多少會跟他人討論政治,但是這樣的人可能也比較願意受訪。 研究人有行為偏差的原因,若樣本未包括在醫院的病人也會造成選樣偏誤。 無反應者可能有一定的特徵,造成選樣偏誤。 1936文學文摘的預測 文學文摘(The Literary Digest)在1932年預測羅斯福獲得56%的選票,而羅斯福獲得58%。 1936年發出1000萬份問卷,樣本來源是電話簿及汽車登記名單,回收230萬份問卷,預測羅斯福獲得41%,結果羅斯福獲得60%選票。 樣本涵蓋率不足 樣本代表性不足 大樣本但是代表性不足 非隨機抽樣(1) 偶遇樣本(haphazard sample)或便利抽樣(convenient sample),碰到誰就選誰的抽樣,做研究的人並不在乎調查對象是否有代表性,例如生物學家解剖青蛙,心理學家觀察人們對聲光刺激的反應,醫生徵求自願者做藥物反應的實驗等等。 配額抽樣(quota sampling)依照母體的人口特徵按比例分配樣本數,在配額之內進行非機率抽樣,也就是把調查對象依照特徵分類後,根據各類別的百分比每類立意選樣至額滿為止。 非隨機抽樣(2) 立意選樣(purposive sampling)或判斷選樣(judgment sampling),這是經由專家主觀判斷,立意選定他們認為「有代表性」的樣本來觀察。 雪球抽樣(snowballed sample)先找到原始受訪者,然後再從受訪者所提供的資訊找到其他受訪者。 抽樣的推論 主要想知道母體的平均值跟離散程度(變異數或標準差) 機率抽樣原理 有N個單位在U集合之中,寫成U={1,2,…,N} ,每個單位對應一個固定的值yi 我們可從中抽出n個樣本,每個樣本之中有若干個單位,每一個樣本的被抽取率以P(S)表示,全部樣本的P(S)總和為1,而i單位出現在所有的樣本的機率以πi表示。 母體的總和t=Σ yi ,而t_hat=N*y_bar,也就是已知N的數目時,乘上樣本的平均值即得母體總和之估計值。 抽出不放回的簡單隨機抽樣 抽出不放回確保每一個樣本只有一次被抽中的機會。 假設有N個單位每一次抽出n個單位,則可抽出(N, n)個樣本,也就是P(S)=1/(N, n)=n!*(N-n)!/N! 例: N=8, n=4, 可抽出70個樣本,每一個樣本的被抽取率即為1/70 而總和的期待值E[t] 即為ΣtsP(s) ,也就是每一樣本的被抽取率乘上其樣本的和之估計值t_hat 而樣本的變異數V(t_hat)=E[(t_hat-E[t])2]= ΣP(s) [ts-E[t]]2 隨機抽樣的平均值及變異數 y_bar=1/n Σ yi y_bar是母體平均數的無偏估計 V(y_bar)=S2/n(1-n/N) s2=1/n-1 Σ(yi- y_bar)2 s2是S2的估計值,因此V(y_bar)=s2/n(1-n/N) 標準差(standard error)為s 另外,總和的估計值t_hat=N*y_bar V(t_hat)=N2*s2/n(1-n/N) 二元分布的p值的變異數 抽樣原理(1) 當我們做無數次抽樣之後,所得到的每一個樣本平均值將形成一個常態分布。而這些樣本平均值的離散程度就是樣本標準差= s2/n(1-n/N) 。 如果樣本抽的次數夠多,真正的母體平均值μ應該等於所有樣本平均值的平均值加減一定的標準差。 但是我們不可能抽無限次的樣本,只能假定單一抽樣就代表無限次抽樣後的平均值。因此我們對母體平均值的估計就是依照抽樣結果。 抽樣原理(2) 根據上圖,我們知道,68%的樣本平均值會落在μ加減一個標準差的範圍中。如果是μ加減兩個標準差的範圍,則會包含95%的樣本平均值。如果是μ加減三個標準差的範圍,則會包含99%的樣本平均值。 換句話說,68%的樣本平均值加減一個標準差會包含μ 。以此類推。 信賴區間 抽樣誤差 抽樣一定會有誤差,也就是根據樣本的調查結果跟真實母體之間有一定的差距,稱為抽樣誤差。 抽樣誤差代表一種區間,也就是樣本估計的結果被包含在一定的上下限。 根據中央極限定理, n,N,N-n夠大時 ~N(0,1) 抽樣誤差(1) 因為在二次分布,變異數為sqrt[p(1-p)/n], 而p=0.5時,
原创力文档


文档评论(0)