分層隨機抽樣.pptVIP

下载本文档

12
0
约5.13千字
约 48页
2016-08-22 发布于天津
举报
版权申诉

分層隨機抽樣.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分層隨機抽樣

民意調查的抽樣蔡佳泓政大選舉研究中心副研究員課程目標抽樣原理非隨機抽樣隨機抽樣等距抽樣分層隨機抽樣多階段集群抽樣抽樣原理由於我們不可能訪問母體中所有的個體，所以必須進行抽樣。例: 台灣地區七歲到十二歲的小孩在除夕夜平均每人收了多少壓歲錢? 石門水庫管理當局想要知道到底水庫裡有多少魚 ? Selection Bias 某些可能研究對象並不在抽樣所得的樣本之中，或是某些可能研究對象較其他更容易被抽樣，造成選樣偏誤。例如，研究成人之中有多少會跟他人討論政治，但是這樣的人可能也比較願意受訪。研究人有行為偏差的原因，若樣本未包括在醫院的病人也會造成選樣偏誤。無反應者可能有一定的特徵，造成選樣偏誤。 1936文學文摘的預測文學文摘(The Literary Digest)在1932年預測羅斯福獲得56%的選票，而羅斯福獲得58%。 1936年發出1000萬份問卷，樣本來源是電話簿及汽車登記名單，回收230萬份問卷，預測羅斯福獲得41%，結果羅斯福獲得60%選票。樣本涵蓋率不足樣本代表性不足大樣本但是代表性不足非隨機抽樣(1) 偶遇樣本（haphazard sample）或便利抽樣（convenient sample），碰到誰就選誰的抽樣，做研究的人並不在乎調查對象是否有代表性，例如生物學家解剖青蛙，心理學家觀察人們對聲光刺激的反應，醫生徵求自願者做藥物反應的實驗等等。配額抽樣(quota sampling)依照母體的人口特徵按比例分配樣本數，在配額之內進行非機率抽樣，也就是把調查對象依照特徵分類後，根據各類別的百分比每類立意選樣至額滿為止。非隨機抽樣(2) 立意選樣（purposive sampling）或判斷選樣（judgment sampling），這是經由專家主觀判斷，立意選定他們認為「有代表性」的樣本來觀察。雪球抽樣（snowballed sample）先找到原始受訪者，然後再從受訪者所提供的資訊找到其他受訪者。抽樣的推論主要想知道母體的平均值跟離散程度(變異數或標準差) 機率抽樣原理有N個單位在U集合之中，寫成U={1,2,…,N} ，每個單位對應一個固定的值yi 我們可從中抽出n個樣本，每個樣本之中有若干個單位，每一個樣本的被抽取率以P(S)表示，全部樣本的P(S)總和為1，而i單位出現在所有的樣本的機率以πi表示。母體的總和t=Σ yi ，而t_hat=N*y_bar，也就是已知N的數目時，乘上樣本的平均值即得母體總和之估計值。抽出不放回的簡單隨機抽樣抽出不放回確保每一個樣本只有一次被抽中的機會。假設有N個單位每一次抽出n個單位，則可抽出(N, n)個樣本，也就是P(S)=1/(N, n)=n!*(N-n)!/N! 例: N=8, n=4, 可抽出70個樣本，每一個樣本的被抽取率即為1/70 而總和的期待值E[t] 即為ΣtsP(s) ，也就是每一樣本的被抽取率乘上其樣本的和之估計值t_hat 而樣本的變異數V(t_hat)=E[(t_hat-E[t])2]= ΣP(s) [ts-E[t]]2 隨機抽樣的平均值及變異數 y_bar=1/n Σ yi y_bar是母體平均數的無偏估計 V(y_bar)=S2/n(1-n/N) s2=1/n-1 Σ(yi- y_bar)2 s2是S2的估計值，因此V(y_bar)=s2/n(1-n/N) 標準差(standard error)為s 另外，總和的估計值t_hat=N*y_bar V(t_hat)=N2*s2/n(1-n/N) 二元分布的p值的變異數抽樣原理(1) 當我們做無數次抽樣之後，所得到的每一個樣本平均值將形成一個常態分布。而這些樣本平均值的離散程度就是樣本標準差= s2/n(1-n/N) 。如果樣本抽的次數夠多，真正的母體平均值μ應該等於所有樣本平均值的平均值加減一定的標準差。但是我們不可能抽無限次的樣本，只能假定單一抽樣就代表無限次抽樣後的平均值。因此我們對母體平均值的估計就是依照抽樣結果。抽樣原理(2) 根據上圖，我們知道，68%的樣本平均值會落在μ加減一個標準差的範圍中。如果是μ加減兩個標準差的範圍，則會包含95%的樣本平均值。如果是μ加減三個標準差的範圍，則會包含99%的樣本平均值。換句話說，68%的樣本平均值加減一個標準差會包含μ 。以此類推。信賴區間抽樣誤差抽樣一定會有誤差，也就是根據樣本的調查結果跟真實母體之間有一定的差距，稱為抽樣誤差。抽樣誤差代表一種區間，也就是樣本估計的結果被包含在一定的上下限。根據中央極限定理, n,N,N-n夠大時 ~N(0,1) 抽樣誤差(1) 因為在二次分布，變異數為sqrt[p(1-p)/n], 而p=0.5時,