- 0
- 0
- 约5.52千字
- 约 15页
- 2026-02-08 发布于四川
- 举报
2025年医学数据分析师考试试卷及答案
一、单项选择题(每题2分,共30分)
1.某研究收集了1000例糖尿病患者的年龄、性别、BMI、空腹血糖(mmol/L)、糖化血红蛋白(%)及是否合并视网膜病变(是/否)数据,其中属于等级变量的是:
A.性别
B.BMI
C.糖化血红蛋白
D.是否合并视网膜病变
2.为比较两种降压药物(A药、B药)对高血压患者收缩压的干预效果,研究纳入80例患者,随机分为两组,每组40例。干预4周后测量收缩压(连续变量),若两组数据均满足正态分布且方差齐,应选择的统计方法是:
A.独立样本t检验
B.配对t检验
C.卡方检验
D.Mann-WhitneyU检验
3.某电子病历系统中,患者主诉字段内容为“反复咳嗽咳痰3月,加重伴发热1周”,此类数据属于:
A.结构化数据
B.半结构化数据
C.非结构化数据
D.时序数据
4.在构建糖尿病患者住院费用预测模型时,若自变量包括年龄(岁)、住院天数(天)、是否手术(0/1)、并发症数量(个),因变量为住院费用(元,偏态分布),最适合的模型是:
A.线性回归
B.对数线性回归
C.逻辑回归
D.生存分析
5.以下哪种方法可用于检测数据集中的异常值?
A.主成分分析(PCA)
B.箱线图(BoxPlot)
C.混淆矩阵(ConfusionMatrix)
D.受试者工作特征曲线(ROC曲线)
6.某队列研究随访5年,观察指标为“是否发生冠心病”(结局事件),部分患者因失访未观察到结局,此类数据需采用的分析方法是:
A.卡方检验
B.Cox比例风险模型
C.方差分析
D.秩和检验
7.医学数据清洗中,针对“某患者年龄字段值为-5”的错误,最合理的处理方式是:
A.直接删除该记录
B.用样本均值替换
C.标记为缺失值并核查原始病历
D.用相邻记录的年龄填充
8.为评估某肿瘤标志物(连续变量)对癌症的诊断效能,应优先选择的统计指标是:
A.敏感度
B.特异度
C.AUC(曲线下面积)
D.阳性预测值
9.在R语言中,使用`lm(y~x1+x2,data=df)`拟合线性回归模型后,若要检验模型整体显著性,应查看的统计量是:
A.调整R2
B.F统计量
C.t统计量
D.残差平方和
10.某医院电子病历系统中,“手术名称”字段存在“腹腔镜胆囊切除术”“LC术”“腹腔镜下胆囊切除”等多种表述,此类问题属于:
A.数据缺失
B.数据冗余
C.数据不一致
D.数据噪声
11.以下哪种机器学习算法更适合处理高维医学基因组数据(如10000个基因表达值预测疾病)?
A.支持向量机(SVM)
B.k近邻(k-NN)
C.决策树
D.线性回归
12.医学数据可视化中,若需展示某疾病发病率随年份(2000-2024年)的变化趋势,最适合的图表是:
A.散点图
B.柱状图
C.折线图
D.箱线图
13.在伦理审查中,医学数据分析需遵守的核心原则不包括:
A.患者隐私保护(如去标识化处理)
B.数据使用的最小必要原则
C.研究结果的商业盈利优先
D.知情同意(除非豁免)
14.某研究比较三种治疗方案对抑郁症患者HAMD评分(连续变量)的影响,每组样本量分别为30、32、28,数据满足正态分布和方差齐性,应选择的统计方法是:
A.单因素方差分析(One-wayANOVA)
B.重复测量方差分析
C.卡方检验
D.Kruskal-Wallis检验
15.若某医学数据库中“出生日期”字段格式为“2023/13/01”(月份13为错误),此类错误属于:
A.逻辑错误
B.格式错误
C.值域错误
D.一致性错误
二、简答题(每题8分,共40分)
1.简述医学数据中“缺失值”的常见类型(至少3种)及处理原则。
2.比较Logistic回归与随机森林在医学预测模型中的优缺点(需结合医学场景)。
3.解释“混杂变量”的定义,并举例说明在观察性研究中控制混杂变量的常用方法(至少3种)。
4.简述医学数据可视化的核心目标,并列举3种适用于展示分类变量与连续变量关系的图表及适用场景。
5.某研究拟用电子病历数据构建“急性心肌梗死患者30天再入院风险预测模型”,请说明数据预处理阶段需重点关注的质量问题(至少5项)。
原创力文档

文档评论(0)