- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年大学生数据分析科普竞赛题库及答案
一、基础概念与统计学原理
1.问题:请说明定类数据(NominalData)、定序数据(OrdinalData)、定距数据(IntervalData)、定比数据(RatioData)的核心区别,并各举一例。
答案:四类数据的核心区别在于测量尺度的层次:
-定类数据:仅用于分类,无顺序或数值意义,如性别(男/女)、血型(A/B/O/AB)。
-定序数据:有顺序但无固定间隔,如教育程度(小学初中高中大学)、满意度(低/中/高)。
-定距数据:有顺序且间隔相等,但无绝对零点,如温度(℃)、智商分数(IQ)。
-定比数据:有顺序、相等间隔且有绝对零点,如身高(cm)、收入(元)、年龄(岁)。
2.问题:中心极限定理(CentralLimitTheorem)的核心结论是什么?在数据分析中如何应用?
答案:中心极限定理指出,无论总体分布如何,当样本量足够大(通常n≥30)时,样本均值的抽样分布近似服从正态分布,均值等于总体均值,方差等于总体方差除以样本量。
应用场景:
-对未知分布的总体进行均值推断(如通过大样本估计某城市居民平均月收入);
-构建置信区间或进行假设检验(如用Z检验替代t检验,当样本量足够大时);
-降低非正态数据对统计方法的限制(如回归分析中误差项的正态性假设)。
3.问题:解释“辛普森悖论”(SimpsonsParadox),并举例说明其产生原因。
答案:辛普森悖论指在分组数据中呈现的趋势,在合并数据后可能反转的现象。原因通常是存在混杂变量(Confounder),即分组时未控制的关键变量影响了结果。
例:某药物试验中,分组统计显示药物对男性和女性均无效(男性有效率:对照组50%vs药物组40%;女性有效率:对照组30%vs药物组25%),但合并后药物组总有效率(35%)高于对照组(32%)。原因是药物组中女性比例更高(女性基数大且整体有效率低),导致分组趋势被掩盖。
4.问题:简述第一类错误(TypeIError)与第二类错误(TypeIIError)的定义,并说明显著性水平α与β的关系。
答案:
-第一类错误(弃真错误):原假设H?为真时,错误拒绝H?的概率,记为α;
-第二类错误(取伪错误):原假设H?为假时,错误接受H?的概率,记为β。
α与β呈负相关:当α减小时(如从0.05降至0.01),拒绝域缩小,β会增大;反之,增大α会降低β。实际中需根据研究目的权衡,如医学试验中通常严格控制α(避免误判无效药物为有效)。
5.问题:简述“过拟合”(Overfitting)与“欠拟合”(Underfitting)的区别,以及如何检测和解决。
答案:
-过拟合:模型在训练集上表现极佳(如准确率99%),但在测试集上表现显著下降(如准确率60%),原因是模型过度学习了训练数据的噪声或细节。
-欠拟合:模型在训练集和测试集上表现均差(如准确率均70%),原因是模型复杂度不足,无法捕捉数据的核心规律。
检测方法:通过交叉验证(如K折交叉验证)比较训练集与验证集的性能指标(如准确率、均方误差)。
解决过拟合:增加数据量、正则化(L1/L2正则)、减少特征数量、早停法(EarlyStopping);
解决欠拟合:增加模型复杂度(如多项式特征、更深的神经网络)、调整超参数(如决策树的最大深度)。
二、数据清洗与预处理
6.问题:某电商用户行为数据集(字段:用户ID、购买时间、商品类别、支付金额、地域)中,支付金额存在5%的缺失值,且缺失值分布与地域相关(如东北地区缺失率15%,其他地区3%)。请设计一套缺失值处理方案,并说明理由。
答案:处理方案分四步:
(1)验证缺失机制:通过卡方检验验证“支付金额缺失”与“地域”的相关性(原假设:缺失与地域无关)。若p0.05,说明为“缺失与可观测变量相关”(MissingatRandom,MAR)。
(2)分地域处理:因东北地区缺失率高且与地域相关,单独处理该区域:
-若东北地区样本量足够(如1000条),可用该区域内“商品类别”相同的非缺失值的中位数填充;
-若样本量小,可构建回归模型(自变量:商品类别、购买时间)预测缺失值。
(3)其他地区缺失率低(3%),直接删除缺失行或用全局中位数填充(避免模型偏差)。
(4)验证处理效果:比较处理前后“支付金额”的分布(如均值、方差、分位数)及与其他变量的相关性(如与商品类别的关联),确保无显著变化。
7.问题:如何检测数据中的异常值(Outlier)?请至少列举3种方法,并说明各
原创力文档


文档评论(0)