高级统计师考试试题及答案.docxVIP

  • 0
  • 0
  • 约9.45千字
  • 约 25页
  • 2026-02-08 发布于四川
  • 举报

高级统计师考试试题及答案

1.(单选)某省卫健委对120家县级医院开展DRG绩效评价,收集2023年出院患者28.6万份病案首页,变量包括年龄、性别、住院天数、主要诊断编码、手术编码、合并症、离院方式、总费用等。若拟用多水平模型评估“医院层面”对住院费用的影响,下列哪种数据结构最符合二水平假定

A.患者嵌套于医院

B.诊断编码嵌套于患者

C.手术编码嵌套于诊断编码

D.合并症与医院交叉分类

答案:A

解析:多水平模型要求低水平单位嵌套于高水平单位。患者为水平1,医院为水平2,符合“患者嵌套于医院”的二层次结构;其余选项或存在交叉,或层级颠倒。

2.(单选)接上题,若总费用呈右偏态,下列哪种变换最可能使医院随机效应分布接近正态

A.ln(总费用+1)

B.总费用^0.25

C.Box-Coxλ=0.3

D.逆双曲正弦

答案:A

解析:对右偏成本数据,对数变换是最常用且易解释的方差稳定化手段;Box-Cox虽更一般,但需额外估计λ;逆双曲正弦适用于含零值且右偏极端的情形,本题费用无零,ln(x+1)足够。

3.(单选)为检验“医院平均住院天数”对“对数费用”的斜率是否随医院等级变化,需纳入

A.医院平均住院天数作为水平2变量,与患者层住院天数交互

B.医院等级作为水平1变量

C.患者层住院天数随机斜率,再以医院等级预测该斜率

D.将医院等级中心化后作为水平1协变量

答案:C

解析:欲检验“斜率变异性”是否被医院特征解释,需在水平2建立“斜率-结果”回归,即随机斜率模型中,以医院等级作为斜率预测因子,对应“情境-特定”效应。

4.(单选)在贝叶斯框架下估计上述多水平模型,若采用弱信息先验,下列哪项陈述正确

A.后验均值一定等于MLE

B.当簇数量少且簇内样本量小时,后验收缩可降低估计方差

C.DIC一定小于AIC

D.先验方差越大,WAIC越差

答案:B

解析:小样本下贝叶斯估计通过“借力量”实现收缩,改善MLE的不稳定;其余选项绝对化,DIC与AIC无必然大小关系。

5.(单选)对28.6万份病案按7:3划分训练集与验证集,采用10折交叉验证(CV)评估lasso回归的预测误差,下列做法最合理的是

A.在完整数据上做10折CV,再划分7:3

B.先在7折训练集上重做10折CV选λ,再于3折验证集计算误差

C.在7折训练集上单次随机10折,固定λ后用于3折

D.直接在3折验证集做lasso

答案:B

解析:必须避免“用验证集参与调参”;训练集内部CV用于超参数搜索,验证集仅作一次误差报告,可近似无偏估计外推误差。

6.(单选)若将DRG权重作为混杂变量纳入倾向得分模型,但DRG权重与处理变量高度共线(VIF=18),下列哪种策略最能降低方差且保留因果解释

A.直接删除DRG权重

B.采用岭回归估计倾向得分

C.改用精确匹配

D.对DRG权重做主成分提取第一主成分

答案:B

解析:共线导致方差膨胀,岭回归通过惩罚项稳定倾向得分估计,保留全部变量,优于删除或降维造成的残余混杂。

7.(单选)用SuperLearner集成12种算法估计倾向得分,若离散型SuperLearner权重出现0,说明

A.该算法CV风险高于样本均值

B.该算法在library中重复

C.该算法计算失败

D.该算法被随机排除

答案:A

解析:SuperLearner以CV风险最小化原则赋予权重,权重为0表示该算法未通过“优于样本均值”门槛,被自动剔除。

8.(单选)在因果推断中,若处理为二值,结果连续,采用TMLE估计平均处理效应(ATE),其fluctuation步骤的协变量为

A.处理变量本身

B.倾向得分的logit变换

C.clevercovariateH(A,ps)=A/ps?(1?A)/(1?ps)

D.结果残差

答案:C

解析:TMLE通过clevercovariate构造均值为0的波动方向,使得参数估计满足有效影响曲线,对应H函数。

9.(单选)若结果变量为“是否30天再入院”,稀有事件发生率1.8%,采用Firth惩罚似然Logistic回归的主要目的是

A.降低假阳性率

B.避免分离导致的极大似然估计发散

C.提高AUC

D.实现变量选择

答案:B

解析:稀有事件+多协变量易出现“分离”,MLE估计‖β‖→∞;Firth惩罚通过Jeffreys先验消除一阶偏差,保证有限样本可估。

10.(单选)对120家医院建立分层Cox共

文档评论(0)

1亿VIP精品文档

相关文档