- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年大学统计学期末考试题库(统计软件应用)数据分析实战试题及答案
试题一:数据清洗与描述性统计分析(20分)
背景:某高校2023届毕业生就业质量调查数据(文件:graduate_survey.csv),包含以下字段:
-性别(gender,男/女)
-学历(degree,本科/硕士/博士)
-专业类别(major_type,工科/理科/文科/经管)
-起薪(salary,单位:元,数值型)
-工作地点(location,一线/新一线/二线/三线及以下)
-通勤时间(commute_time,分钟,数值型)
-工作满意度(satisfaction,1-5分,1=非常不满意,5=非常满意)
数据问题:经初步检查,数据存在以下问题:
1.起薪字段有15条记录为“缺失”(字符串类型),其余为数值型;
2.通勤时间字段存在3个异常值(经计算,超过Q3+1.5IQR);
3.工作满意度字段有5条记录为“6”(超出1-5分范围);
4.部分记录的“专业类别”字段存在拼写错误(如“工科”误写为“工课”,“经管”误写为“径管”)。
要求:
(1)使用Python或R语言读取数据,完成以下清洗操作(10分):
-处理起薪字段的缺失值(要求:删除缺失值少于总样本量5%时直接删除,否则用专业类别+学历分组的均值填补);
-处理通勤时间的异常值(要求:用Q3+1.5IQR作为上限,将异常值替换为该上限值);
-修正工作满意度的错误值(要求:将“6”修正为5);
-修正专业类别的拼写错误(要求:统一为“工科”“理科”“文科”“经管”)。
(2)基于清洗后的数据,完成以下描述性统计分析(10分):
-计算起薪的均值、中位数、标准差、变异系数(CV)及四分位数(Q1、Q3);
-绘制起薪的直方图(分10组)与箱线图,描述其分布特征(偏态、峰度、是否存在离群点);
-按学历分组,计算工作满意度的均值与标准差,并用柱状图展示(需添加误差线)。
试题二:假设检验与方差分析(25分)
背景:某电商平台为优化促销策略,随机抽取了1000名用户,记录其“是否参与过秒杀活动”(participate,是/否)及“过去3个月消费金额”(consumption,元)。平台认为参与秒杀的用户消费金额更高,需验证这一假设。另抽取了不同地区(A/B/C三类)的500名用户,记录其“会员等级”(level,1-3级)及“消费金额”,需分析地区与会员等级对消费金额的影响。
要求:
(1)针对“参与秒杀活动的用户消费金额更高”的假设(10分):
-提出原假设与备择假设;
-选择合适的检验方法(需说明理由);
-使用Python或R语言完成检验(α=0.05),输出检验统计量、p值及结论;
-解释结论的实际意义。
(2)针对“地区与会员等级对消费金额的影响”(15分):
-判断是否满足双因素方差分析的前提条件(正态性、方差齐性);
-建立双因素方差分析模型(含交互效应),输出方差分析表;
-解释主效应与交互效应的显著性(α=0.05);
-若存在显著效应,进行多重比较(如LSD法)并说明结果。
试题三:回归分析与预测(30分)
背景:某城市房地产研究机构收集了2020-2023年的房屋交易数据(文件:house_sales.csv),字段包括:
-建筑面积(area,㎡)
-房龄(age,年)
-楼层(floor,1-30层)
-学区等级(school_rank,1-5级,1=无优质学区,5=顶级学区)
-地铁距离(subway_dist,米,数值型)
-成交价格(price,万元,数值型)
要求:
(1)探索变量间的相关性(5分):
-计算成交价格与其他变量的Pearson相关系数;
-绘制散点图矩阵(或热力图),描述关键变量(如建筑面积、学区等级)与成交价格的关系。
(2)构建多元线性回归模型(15分):
-以成交价格为因变量,其他变量为自变量,建立初始模型;
-检验模型的多重共线性(VIF值),若存在共线性则进行变量筛选(如逐步回归);
-输出模型摘要(系数估计、t检验、R2、调整R2、F检验);
-解释建筑面积、学区等级对成交价格的影响(系数含义、显著性)。
(3)模型诊断与预测(10分):
-检验残差的正态性(Shapiro-Wilk检验)与异方差性(Breusch-Pagan检验);
-若模型满足要求,预测一套“建筑面积120㎡、房龄5年、楼层10层、学区等级4级、
原创力文档


文档评论(0)