- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信赖区间
課程六 信賴區間 機率 樣本統計是母體參數的估計值。 眾多樣本統計值集合起來成為抽樣分佈。 我們關心樣本的抽樣分佈是否圍繞在母體參數。 點估計與區間估計 樣本統計是點估計,是我們的猜測。 區間估計則是母體參數有可能落在其中的眾多點估計。 點估計應該是無偏(unbiased)、離散程度盡可能小(efficient)。 無偏估計 樣本平均數是母體平均數的無偏估計:E[Y-bar]=E[1/n(ΣY)]=1/n(E[ΣY])=1/n(n)(E[Y])=μ 樣本的變異數是母體變異數的無偏估計:E[S2]=σ2 中央極限定理(Central Limit Theorem, CLT) 當樣本數很大(n=30)時,不論母群體是何種機率分配,樣本平均數的抽樣分配為近似常態分配。 信賴區間1 要正確估計母體參數是不可能的,但是可以假設母體參數應該落在一定的區間,稱為信賴區間(confidence interval)。 而產生信賴區間需要信心水準(confidence level),或者是誤差(margin of error) 點估計加減誤差便是區間估計。 信賴區間2 假如點估計所在的信賴區間未包含真實參數,可能是該信賴區間太小,也可能是點估計落在離母體參數太遠的地方。 因此,我們要控制信賴區間的大小,也就是決定容許多大的誤差(margin of error)。 誤差越大,則信賴區間越小。誤差越小,信賴區間越大,越有可能涵蓋真實參數。 信賴區間3 信賴區間=點估計+-誤差(M) 誤差=critical value × se 而critical value(z值)來自於α=1-(信賴區間/100) z值對應α,α/2分屬於z值分佈的兩端。 因此,信賴區間估計常表示為: [p- z(1-α/2)*(se), p+z(1-α/2)*(se)] 信賴區間4 由於眾多點估計成常態分佈,點估計之間的離散程度也可以用標準誤表示。 而信賴區間可視為點估計的不確定程度,也就是點估計加上若干標準誤。 抽樣樣本越大,相同的樣本變異數下,樣本平均值的標準誤越小,則信賴區間也越小,也就是不確定程度越小。 例 Florida民意調查顯示,1200名受訪者中,有396人贊成限制墮胎,π=0.33。那麼贊成的真實比例多少? 標準誤(s.e.)為√(0.33)(1-0.33)/1200=0.013 95%的信賴區間為0.33+-1.96*se=(0.30, 0.36)。 樣本規模 若已知z值,而且已知樣本平均值,且設定誤差,那麼可以推導適合的樣本數。 當M=0.04(4%),z=1.96,π=0.5,n=0.25*(1.96/0.04)^2=600。至少需要600個樣本。 連續樣本 抽樣分佈(sampling distributions)適用於二元以及連續變數。 當母體為連續變數時,我們使用樣本平均值推論母體平均值。Y-bar的標準誤(se)為s/√n。 例 抽出400名美國人,身高平均值為70.2吋,標準差為2.89吋,那麼全體美國人平均身高是否有6呎(72吋)? 70.2+-1.96*(2.89/ √400)=(69.9, 70.4) 因為兩個標準誤的信賴區間不涵蓋72,因此無法確認母體的平均身高有72吋。 例 抽出900個學生接受調查,他們平均一年有27000的零用錢,標準差為4000元,請問全體學生的平均零用錢為多少,在95%的信心水準之下? 因為95%的信心水準等於是0.05的誤差,α/2對應z值為1.96,因此區間估計為[2.7-1.96*0.4/√900, 2.7+1.96*0.4 /√900]=[26700,27200] t分配 假設母群體呈常態,而σ未知,以樣本標準差s取代。 樣本愈小,抽樣分佈的兩側尾巴愈長(越平坦)(AF, p. 119)。 如果n=30,t趨近於Z。 n-1為自由度。樣本統計來自於隨機變數,而若干事件便可決定樣本統計值,其個數稱自由度。例如:已知平均年齡為25,在抽出四人之後,第四人的年齡在平均年齡為25時自動被決定,因此自由度為3。 t分配的區間估計 假設誤差=α,自由度=n-1,信賴區間可表示為[y-bar-tα/2(se), y-bar+tα/2(se)]。 se=s/n 例:中國30個港口調查得到平均吞吐量76億噸,假設標準差為12,對於母體平均值的95%信賴區間估計為:[76-2.045*12/30, 76+2.045*12/30]=[71.51, 80.48] 單尾t值 有時候我們只想找出μ是否大於或小於某個值,而非兩邊平均的區間。 假設誤差=α,自由度=n-1,右尾機率t(α, df=n-1)的信賴區間可表示為(-∞, y-bar+tα(se)]。左尾機率t(α, df=n-1)的信賴區間則表示為[y-bar+tα
文档评论(0)