- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年大学生数据分析科普竞赛题库及答案
一、数据分析基础概念
1.选择题:以下哪组变量全部属于分类型数据?
A.学生身高(cm)、考试成绩(百分制)、性别(男/女)
B.商品类别(食品/服饰)、用户评价(满意/一般/不满意)、会员等级(青铜/白银/黄金)
C.月收入(元)、订单数量(个)、客户年龄(岁)
D.温度(℃)、降雨量(mm)、股票涨跌幅(%)
答案:B
解析:分类型数据(定性数据)表示事物的类别或属性,无大小顺序(名义型)或有顺序但无固定间隔(有序型)。选项B中“商品类别”是名义型,“用户评价”和“会员等级”是有序型;A中“身高”“成绩”为数值型(连续);C中“月收入”“订单数量”“年龄”均为数值型(连续或离散);D中“温度”“降雨量”“涨跌幅”为连续型数值数据。
2.简答题:简述“中心极限定理”在数据分析中的意义。
答案:中心极限定理(CLT)指出,当样本量足够大时(通常n≥30),无论总体分布如何,样本均值的抽样分布近似服从正态分布。其意义在于:①允许用正态分布近似分析非正态总体的均值问题(如假设检验、置信区间计算);②为大样本统计推断(如t检验、方差分析)提供理论基础;③降低对数据分布的严格要求,扩大了统计方法的适用范围。
3.判断题:在相关性分析中,皮尔逊相关系数(Pearsonr)为0.8,说明两个变量之间存在因果关系。()
答案:错误
解析:皮尔逊相关系数衡量变量间线性相关的强度和方向,相关系数高仅说明变量间存在强线性关联,但无法证明因果关系。因果关系需通过实验设计(如随机对照试验)或更严格的因果推断方法(如DAG模型)验证。
二、数据清洗与预处理
1.案例分析题:某电商平台用户行为数据集中存在以下问题,需逐一提出处理方案:
(1)“用户年龄”字段有15%的缺失值,且缺失值集中在新注册用户(注册时间≤7天);
(2)“商品价格”字段中出现“99999”“-1”等异常值;
(3)“购买时间”字段格式混乱(如“2024/3/5”“2024-03-0514:30”“3-5-2024”)。
答案:
(1)缺失值处理:新注册用户可能未完善资料,可采用“按注册时间分组填充”。若新用户占比高且业务中年龄对分析影响较小,可保留缺失值并标记(如用“未知”);若需填补,可计算同注册时间段(如1-7天)用户的平均年龄或中位数填充(考虑到年龄可能右偏,中位数更稳健)。
(2)异常值处理:“99999”可能是系统默认填充的错误值(如未录入价格),“-1”可能是录入错误。需结合业务逻辑判断:若商品实际价格无负数或极高值(如平台商品均价≤2000元),可将“99999”和“-1”视为缺失值,用该商品品类的均价或众数替换;若为少量异常,可直接删除对应记录。
(3)时间格式统一:使用Python的`pandas.to_datetime()`函数,设置`errors=coerce`将无法转换的值标记为`NaT`(时间缺失值),再通过`fillna()`或结合其他字段(如订单创建时间)补全;或手动编写正则表达式提取年、月、日、时、分信息,重新拼接为标准格式(如“YYYY-MM-DDHH:MM:SS”)。
三、统计分析方法
1.计算题:某奶茶品牌在A、B两地测试新口味,随机抽取A地100名消费者,满意度均值为8.2(满分10),标准差1.5;B地80名消费者,满意度均值7.8,标准差1.8。假设两地满意度数据独立且总体方差不等,能否认为A地满意度显著高于B地?(α=0.05,t临界值≈1.65)
答案:
步骤1:建立假设。H?:μ?≤μ?(A地满意度不高于B地);H?:μ?μ?(A地满意度更高)。
步骤2:计算t统计量。
t=(X??-X??)/√(s?2/n?+s?2/n?)=(8.2-7.8)/√(1.52/100+1.82/80)≈0.4/√(0.0225+0.0405)≈0.4/√0.063≈0.4/0.251≈1.59。
步骤3:比较t值与临界值。单侧检验α=0.05,临界值≈1.65。计算得t≈1.591.65,未拒绝原假设。
结论:在α=0.05水平下,不能认为A地满意度显著高于B地。
2.简答题:在回归分析中,多重共线性会导致哪些问题?如何检测?
答案:
多重共线性指自变量间存在高度线性相关。问题:①回归系数估计值方差增大,导致参数不稳定性(微小数据变化可能引起系数大幅波动);②t检验失效(系数显著性被低估);③系数符号可能与实际经济意义矛盾(如本应正相关的变量系数为负)。
检测方法:①计算方
您可能关注的文档
最近下载
- 2011CPXY-J229 TXV-天信防水卷材防水涂料.docx VIP
- 2006CPXY-J169 新元素板业新元素板业.docx VIP
- DB23T 3531-2023 人工林营建碳增汇技术指南.pdf VIP
- Revit与Navisworks实用疑难200问1.pdf VIP
- 2011CPXY-J227 可耐福穿孔纸面石膏板.docx VIP
- 2004CPXY-J152 振邦建筑用氟碳涂料系列产品.docx VIP
- 2004CPXY-J151 TIETUO(贴妥)版系列自粘防水卷材.docx VIP
- 2015CPXY-J335 铠美创水泥基渗透结晶型防腐防水材料.docx VIP
- 2014CPXY-R20 晓珍FM PVC风管 晓珍FM PVC风管.docx VIP
- 2004CPXY-R06 “龙牌”钢制板式散热器.docx VIP
原创力文档


文档评论(0)