易丹辉 用数据诠释实际问题.pdfVIP

  • 6
  • 0
  • 约2.31万字
  • 约 73页
  • 2019-08-31 发布于江苏
  • 举报
用数据诠释实际问题 » 易丹辉 » 中国人民大学统计学院 » 2019.5.24 用什么数据说话 数据质量 数据诠释实际问题的基础 指标变量的合理 异常 缺失 错误 多种类型数据的综合利用 信息的充分利用 分类数据 有序数据 连续变量的离散化 实验室测量指标 患者表征 基因 影像资料 数据的不平衡 如何处理 2 如何用数据说话  数据分布特征展示 —— 描述性分析 数据的基本分布特征需要心中有数  模型的正确使用 注意模型运用的条件 可以解释和说明的问题  多种方法的结合运用 从不同层面、不同角度诠释实际现象的规律 不要小看数据的描述性分析 数据诠释实际问题的第一步 数据的描述性分析 数据的分布特征 合理分组 某医院某年恶性肿瘤门诊患者年龄 均值61.93岁 标准差14.81岁 说明什么? 年龄分布 —— 特征 单位:岁 患者 最 中 平 最 标 下四分 上四分 患者类别 总人数 小 位 均 大 准 位数 位数 (人) 值 数 值 值 差 恶性肿瘤患者 11447 2 53.00 63 61.93 72.00 118 14.81 住院患者有关指标的特征描述 变量 均值 标准差 最小值 下四分位数 中位数 上四分位数 最大值 年龄 (岁) 57.00 15.35 1.00 49.00 58.00 68.00 100.00 住院总费用 (元) 28827.24 33898.90 14.00 10900.00 19009.79 34130.40 991971.59 住院天数 (天) 12.19 6.11 3.00 8.00 11.00 15.00 28.00 单次剂量 (ml) 16.51 5.65 10.00 12.00 15.00 20.00 35.00 日剂量 (ml) 15.78 4.01 10.00 13.50 15.00 17.50 35.00 疗程 (天) 8.90 6.00 3.00 4.00 7.00 12.00 28.00 从表看,如果仅计算均值、中位数,住院天数均值和中位数差异不大,疗程的均 值和中位数相差不多,但是将其它指标计算列出,可以发现问题:住院天数的均值 、中位数以及上下四分位数均大于疗程,患者住院期间没有治疗?为什么?疗程 的最小值3天,住院费用最少14元,是住院3天的患者的花费?还是疗程3天患者的 费用?14元是否有问题?是数据

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档