- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
《商务数据分析》期末考试复习题及答案
一、单项选择题(每题2分,共20分)
1.以下哪项不属于商务数据分析的核心目标?
A.发现业务规律
B.预测未来趋势
C.替代人工决策
D.支持精准营销
答案:C
2.数据清洗中处理缺失值的方法不包括?
A.直接删除含缺失值的记录
B.用变量均值填充缺失值
C.将缺失值标记为特殊类别
D.扩大样本量以覆盖缺失值
答案:D
3.某电商平台用户消费金额的偏度系数为2.3,说明数据分布呈现?
A.对称分布
B.左偏(负偏)
C.右偏(正偏)
D.均匀分布
答案:C(偏度0为右偏,数据右侧有较长尾巴)
4.相关系数r=0.85表示两个变量之间?
A.无线性相关关系
B.高度正线性相关
C.高度负线性相关
D.完全线性相关
答案:B(|r|0.8为高度相关,r0为正相关)
5.在逻辑回归模型中,因变量的取值通常是?
A.连续数值
B.二分类(0/1)
C.有序类别
D.名义类别
答案:B
6.以下哪种可视化图表最适合展示某品牌全年各月销售额的变化趋势?
A.散点图
B.柱状图
C.折线图
D.饼图
答案:C(折线图适合展示时间序列的趋势变化)
7.K-means聚类算法的核心步骤是?
A.计算数据点间的曼哈顿距离
B.预先设定聚类数k并迭代优化质心
C.基于树结构划分数据子集
D.通过密度阈值识别簇
答案:B
8.A/B测试的关键是?
A.保证两组样本量相同
B.控制唯一变量差异
C.选择高流量页面作为测试环境
D.仅比较转化率指标
答案:B(A/B测试需控制单一变量,其他条件一致)
9.数据仓库(DataWarehouse)与数据湖(DataLake)的主要区别是?
A.数据仓库存储结构化数据,数据湖存储非结构化数据
B.数据仓库用于实时分析,数据湖用于历史分析
C.数据仓库支持多源数据集成,数据湖仅支持单源数据
D.数据仓库的访问权限更宽松
答案:A(数据仓库以结构化数据为主,数据湖可存储多类型数据)
10.某企业用RFM模型分析客户价值,其中“M”指的是?
A.最近购买时间(Recency)
B.购买频率(Frequency)
C.购买金额(Monetary)
D.客户留存率(Retention)
答案:C
二、判断题(每题1分,共10分,正确打“√”,错误打“×”)
1.商务数据分析中,样本量越大越好,因此无需考虑抽样方法。(×)(需根据研究目标选择合适抽样方法,过大样本可能增加成本)
2.标准差越小,数据的离散程度越高。(×)(标准差越小,数据越集中)
3.混淆矩阵中,“真阳性率(TPR)”等于“召回率(Recall)”。(√)(TPR=TP/(TP+FN)=Recall)
4.决策树模型容易解释,但对缺失值敏感。(√)(决策树可可视化展示规则,但缺失值可能影响划分)
5.热力图主要用于展示两个变量的相关关系。(×)(热力图适合展示矩阵中不同区域的数值大小,如用户行为热点)
6.时间序列分析中,季节成分是指数据随时间呈现的周期性波动(周期≤1年)。(√)
7.主成分分析(PCA)的目的是降维,同时保留原始数据的主要方差。(√)
8.在关联规则分析中,支持度(Support)越高,规则的实用性越强。(×)(支持度高仅说明频繁出现,需结合置信度和提升度综合判断)
9.数据可视化的核心是“美观”,因此应优先选择复杂图表。(×)(核心是清晰传递信息,需根据数据类型选择合适图表)
10.预测模型的准确率(Accuracy)是评价模型性能的唯一指标。(×)(需结合精确率、召回率、F1值等综合评价)
三、简答题(每题6分,共30分)
1.简述数据清洗的主要步骤及常见方法。
答案:数据清洗的主要步骤包括识别异常值、处理缺失值、纠正数据错误、统一数据格式。常见方法:(1)异常值处理:通过Z-score、IQR(四分位距)识别,可删除、修正或保留;(2)缺失值处理:删除记录、均值/中位数填充、回归预测填充;(3)错误纠正:检查逻辑矛盾(如年龄为-5),通过业务规则修正;(4)格式统一:如将“2023/12/31”与“2023-12-31”统一为标准日期格式。
2.说明相关分析与回归分析的区别与联系。
答案:区别:(1)相关分析衡量变量间线性关联程度(用相关系数r),不区分自变量和
原创力文档


文档评论(0)