高级统计师考试试题及答案.docxVIP

下载本文档

0
0
约9.45千字
约 25页
2026-02-08 发布于四川
举报

高级统计师考试试题及答案.docx

高级统计师考试试题及答案

1.（单选）某省卫健委对120家县级医院开展DRG绩效评价，收集2023年出院患者28.6万份病案首页，变量包括年龄、性别、住院天数、主要诊断编码、手术编码、合并症、离院方式、总费用等。若拟用多水平模型评估“医院层面”对住院费用的影响，下列哪种数据结构最符合二水平假定

A.患者嵌套于医院

B.诊断编码嵌套于患者

C.手术编码嵌套于诊断编码

D.合并症与医院交叉分类

答案：A

解析：多水平模型要求低水平单位嵌套于高水平单位。患者为水平1，医院为水平2，符合“患者嵌套于医院”的二层次结构；其余选项或存在交叉，或层级颠倒。

2.（单选）接上题，若总费用呈右偏态，下列哪种变换最可能使医院随机效应分布接近正态

A.ln(总费用+1)

B.总费用^0.25

C.Box-Coxλ=0.3

D.逆双曲正弦

答案：A

解析：对右偏成本数据，对数变换是最常用且易解释的方差稳定化手段；Box-Cox虽更一般，但需额外估计λ；逆双曲正弦适用于含零值且右偏极端的情形，本题费用无零，ln(x+1)足够。

3.（单选）为检验“医院平均住院天数”对“对数费用”的斜率是否随医院等级变化，需纳入

A.医院平均住院天数作为水平2变量，与患者层住院天数交互

B.医院等级作为水平1变量

C.患者层住院天数随机斜率，再以医院等级预测该斜率

D.将医院等级中心化后作为水平1协变量

答案：C

解析：欲检验“斜率变异性”是否被医院特征解释，需在水平2建立“斜率-结果”回归，即随机斜率模型中，以医院等级作为斜率预测因子，对应“情境-特定”效应。

4.（单选）在贝叶斯框架下估计上述多水平模型，若采用弱信息先验，下列哪项陈述正确

A.后验均值一定等于MLE

B.当簇数量少且簇内样本量小时，后验收缩可降低估计方差

C.DIC一定小于AIC

D.先验方差越大，WAIC越差

答案：B

解析：小样本下贝叶斯估计通过“借力量”实现收缩，改善MLE的不稳定；其余选项绝对化，DIC与AIC无必然大小关系。

5.（单选）对28.6万份病案按7:3划分训练集与验证集，采用10折交叉验证（CV）评估lasso回归的预测误差，下列做法最合理的是

A.在完整数据上做10折CV，再划分7:3

B.先在7折训练集上重做10折CV选λ，再于3折验证集计算误差

C.在7折训练集上单次随机10折，固定λ后用于3折

D.直接在3折验证集做lasso

答案：B

解析：必须避免“用验证集参与调参”；训练集内部CV用于超参数搜索，验证集仅作一次误差报告，可近似无偏估计外推误差。

6.（单选）若将DRG权重作为混杂变量纳入倾向得分模型，但DRG权重与处理变量高度共线（VIF=18），下列哪种策略最能降低方差且保留因果解释

A.直接删除DRG权重

B.采用岭回归估计倾向得分

C.改用精确匹配

D.对DRG权重做主成分提取第一主成分

答案：B

解析：共线导致方差膨胀，岭回归通过惩罚项稳定倾向得分估计，保留全部变量，优于删除或降维造成的残余混杂。

7.（单选）用SuperLearner集成12种算法估计倾向得分，若离散型SuperLearner权重出现0，说明

A.该算法CV风险高于样本均值

B.该算法在library中重复

C.该算法计算失败

D.该算法被随机排除

答案：A

解析：SuperLearner以CV风险最小化原则赋予权重，权重为0表示该算法未通过“优于样本均值”门槛，被自动剔除。

8.（单选）在因果推断中，若处理为二值，结果连续，采用TMLE估计平均处理效应（ATE），其fluctuation步骤的协变量为

A.处理变量本身

B.倾向得分的logit变换

C.clevercovariateH(A,ps)=A/ps?(1?A)/(1?ps)

D.结果残差

答案：C

解析：TMLE通过clevercovariate构造均值为0的波动方向，使得参数估计满足有效影响曲线，对应H函数。

9.（单选）若结果变量为“是否30天再入院”，稀有事件发生率1.8%，采用Firth惩罚似然Logistic回归的主要目的是

A.降低假阳性率

B.避免分离导致的极大似然估计发散

C.提高AUC

D.实现变量选择

答案：B

解析：稀有事件+多协变量易出现“分离”，MLE估计‖β‖→∞；Firth惩罚通过Jeffreys先验消除一阶偏差，保证有限样本可估。

高级统计师考试试题及答案.docxVIP

高级统计师考试试题及答案.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档