2025年医学数据分析师考试试卷及答案.docxVIP

  • 0
  • 0
  • 约5.52千字
  • 约 15页
  • 2026-02-08 发布于四川
  • 举报

2025年医学数据分析师考试试卷及答案.docx

2025年医学数据分析师考试试卷及答案

一、单项选择题(每题2分,共30分)

1.某研究收集了1000例糖尿病患者的年龄、性别、BMI、空腹血糖(mmol/L)、糖化血红蛋白(%)及是否合并视网膜病变(是/否)数据,其中属于等级变量的是:

A.性别

B.BMI

C.糖化血红蛋白

D.是否合并视网膜病变

2.为比较两种降压药物(A药、B药)对高血压患者收缩压的干预效果,研究纳入80例患者,随机分为两组,每组40例。干预4周后测量收缩压(连续变量),若两组数据均满足正态分布且方差齐,应选择的统计方法是:

A.独立样本t检验

B.配对t检验

C.卡方检验

D.Mann-WhitneyU检验

3.某电子病历系统中,患者主诉字段内容为“反复咳嗽咳痰3月,加重伴发热1周”,此类数据属于:

A.结构化数据

B.半结构化数据

C.非结构化数据

D.时序数据

4.在构建糖尿病患者住院费用预测模型时,若自变量包括年龄(岁)、住院天数(天)、是否手术(0/1)、并发症数量(个),因变量为住院费用(元,偏态分布),最适合的模型是:

A.线性回归

B.对数线性回归

C.逻辑回归

D.生存分析

5.以下哪种方法可用于检测数据集中的异常值?

A.主成分分析(PCA)

B.箱线图(BoxPlot)

C.混淆矩阵(ConfusionMatrix)

D.受试者工作特征曲线(ROC曲线)

6.某队列研究随访5年,观察指标为“是否发生冠心病”(结局事件),部分患者因失访未观察到结局,此类数据需采用的分析方法是:

A.卡方检验

B.Cox比例风险模型

C.方差分析

D.秩和检验

7.医学数据清洗中,针对“某患者年龄字段值为-5”的错误,最合理的处理方式是:

A.直接删除该记录

B.用样本均值替换

C.标记为缺失值并核查原始病历

D.用相邻记录的年龄填充

8.为评估某肿瘤标志物(连续变量)对癌症的诊断效能,应优先选择的统计指标是:

A.敏感度

B.特异度

C.AUC(曲线下面积)

D.阳性预测值

9.在R语言中,使用`lm(y~x1+x2,data=df)`拟合线性回归模型后,若要检验模型整体显著性,应查看的统计量是:

A.调整R2

B.F统计量

C.t统计量

D.残差平方和

10.某医院电子病历系统中,“手术名称”字段存在“腹腔镜胆囊切除术”“LC术”“腹腔镜下胆囊切除”等多种表述,此类问题属于:

A.数据缺失

B.数据冗余

C.数据不一致

D.数据噪声

11.以下哪种机器学习算法更适合处理高维医学基因组数据(如10000个基因表达值预测疾病)?

A.支持向量机(SVM)

B.k近邻(k-NN)

C.决策树

D.线性回归

12.医学数据可视化中,若需展示某疾病发病率随年份(2000-2024年)的变化趋势,最适合的图表是:

A.散点图

B.柱状图

C.折线图

D.箱线图

13.在伦理审查中,医学数据分析需遵守的核心原则不包括:

A.患者隐私保护(如去标识化处理)

B.数据使用的最小必要原则

C.研究结果的商业盈利优先

D.知情同意(除非豁免)

14.某研究比较三种治疗方案对抑郁症患者HAMD评分(连续变量)的影响,每组样本量分别为30、32、28,数据满足正态分布和方差齐性,应选择的统计方法是:

A.单因素方差分析(One-wayANOVA)

B.重复测量方差分析

C.卡方检验

D.Kruskal-Wallis检验

15.若某医学数据库中“出生日期”字段格式为“2023/13/01”(月份13为错误),此类错误属于:

A.逻辑错误

B.格式错误

C.值域错误

D.一致性错误

二、简答题(每题8分,共40分)

1.简述医学数据中“缺失值”的常见类型(至少3种)及处理原则。

2.比较Logistic回归与随机森林在医学预测模型中的优缺点(需结合医学场景)。

3.解释“混杂变量”的定义,并举例说明在观察性研究中控制混杂变量的常用方法(至少3种)。

4.简述医学数据可视化的核心目标,并列举3种适用于展示分类变量与连续变量关系的图表及适用场景。

5.某研究拟用电子病历数据构建“急性心肌梗死患者30天再入院风险预测模型”,请说明数据预处理阶段需重点关注的质量问题(至少5项)。

文档评论(0)

1亿VIP精品文档

相关文档