- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
刘业政
2017年5月25日
概率论与统计推断
04:统计泛函估计
统计推断的基本概念
CDF与统计泛函的估计
标准误差与置信区间的估计
统计推断的基本概念
CDF与统计泛函的估计
标准误差与置信区间的估计
统计推断(包括数据挖掘、机器学习):利用给出的数据,推断出产生这些数据分布的过程。
统计模型F:一系列分布或密度或回归函数。
参数与非参数模型:一系列用参数表示的F。
F={f(x,): }
表示在参数空间中取值的未知参数(或参数向量);若仅关注参数向量中的一个参数,则其他参数为冗余参数。若有限,则为参数模型;否则为非参数模型。
参数估计
(一维参数估计)设X1, X2,...,Xn是相互独立的Bernoulli(p)观察值,估计p进而构建该观察值的生成模型Bernoulli(p) 。
(二维参数估计)设X1, X2,...,Xn~F,且PDF fF。其中:
F=
估计、;若仅对感兴趣,则为冗余参数。
非参数估计
(CDF的非参数估计)设X1, X2,...,Xn是来源于CDF为F的独立观察值,FF所有={所有CDF}。如何根据观察值估计F。
非参数估计
(概率密度的非参数估计)设X1, X2,...,Xn是来源于CDF为F的独立观察值,令f=F为PDF,FF所有={所有CDF}。如何根据观察值估计f。注意,现有的条件无法估计出f,需要假设f的光滑性,可假设f属于索伯列夫空间FSOB (Sobolev space) 。因此,fFDENS∩FSOB。FDENS为所有密度函数集合。
FSOB =
非参数估计
(函数的非参数估计)设X1, X2,...,Xn~F。假定要在仅假设期望存在的条件下去估计=∫xdF(x),此时可以看成是F的一个函数=T(F) =∫xdF(x) 。一般情况下,称所有关于F的函数为统计泛函。
回归、分类与预测
假设有成对的观察值(X1,Y1),( X2,Y2),...,(Xn,Yn)。一般称X为预测/决策/特征/输入/自变量;Y称为输出/因变量。
称r(x)=E(Y|X=x)为回归函数,如果Y是离散的,则称为分类;假设rF,若F是有限维,则为参数回归模型,否则为非参数回归模型;根据成对观察值估计函数r被称为回归/曲线估计。
根据一个新的X观察值去推断Y的值,称为预测。
置信集及其估计
设参数满足:
P(Cn)≥1-,
则称Cn=(a,b)为参数的1- 置信区间。其含义是参数落在(a,b)内的概率为1- 。a, b均是观测样本数据X1,...,Xn的函数。注意的估计值是随机变量,但本身是确定性的未知值。
假设检验
从缺省理论(原假设)开始,通过观测数据是否提供显著性证据来支持对假设的拒绝,如果不能拒绝,则保留(接受、不能拒绝)原假设。详细内容将在第6讲介绍。
统计推断的基本概念
CDF与统计泛函的估计
标准误差与置信区间的估计
统计推断的基本概念
CDF与统计泛函的估计
标准误差与置信区间的估计
经验分布举例(799个神经数据:神经两次起搏之间的等待时间)
经验分布函数—CDF的非参数估计
神经数据的置信集
图中虚线给出了95%的置信带,其中=0.048。
经验分布举例(799个神经数据:神经两次起搏之间的等待时间)
U(x)
L(x)
统计推断的基本概念
CDF与统计泛函的估计
标准误差与置信区间的估计
统计推断的基本概念
CDF与统计泛函的估计
标准误差与置信区间的估计
Bootstrap置信区间:枢轴量区间法
Bootstrap置信区间:分位区间法
定义置信区间Cn=(a,b),其中,
统计泛函估计举例:高考入学成绩与GPA的相关性
样本数据:X=样本;Y=入学成绩;Z=GPA
X
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
Y
576
635
558
578
666
580
555
661
651
605
653
575
545
572
594
Z
3.39
3.30
2.81
3.03
3.44
3.07
3.00
3.43
3.36
3.13
3.12
2.74
2.76
2.88
3.96
统计泛函估计举例:高考入学成绩与GPA的相关性
嵌入式估计相关系数,
原始数据
复本直方图
文档评论(0)