上海数据分析笔试题及答案.pdfVIP

  • 0
  • 0
  • 约5.02千字
  • 约 10页
  • 2026-03-07 发布于山东
  • 举报

上海数据分析笔试题及答案推荐

一、单选题(每题1分,共10分)

1.下列哪个不是常用的数据分析工具?()(1分)

A.Excel

B.SQL

C.Python

D.CAD

【答案】D【解析】CAD(计算机辅助设计)主要用于工程设计和绘图,不属于数据分析

工具。

2.数据抽样中,哪种方法最能保证样本的随机性?()(1分)

A.分层抽样

B.整群抽样

C.系统抽样

D.简单随机抽样

【答案】D【解析】简单随机抽样中每个样本被选中的概率相同,最能保证随机性。

3.关于数据透视表,以下说法错误的是?()(1分)

A.可以快速汇总数据

B.支持多维度分析

C.自动去除重复值

D.需要手动编写SQL语句

【答案】D【解析】数据透视表无需手动编写SQL语句,直接在界面操作即可。

4.计算数据集中所有数值的平均值,应使用哪个统计量?()(1分)

A.中位数

B.众数

C.方差

D.算术平均数

【答案】D【解析】算术平均数是数据集总和除以数据个数,计算所有数值的平均值。

5.以下哪种方法适用于处理缺失值?()(1分)

A.删除缺失数据

B.插值法

C.众数替换

D.以上都是

【答案】D【解析】删除缺失数据、插值法、众数替换都是处理缺失值的常用方法。

6.数据标准化通常使用哪种公式?()(1分)

A.min-max缩放

B.Z-score标准化

C.归一化

D.二值化

【答案】B【解析】Z-score标准化将数据转换为均值为0、标准差为1的分布。

7.以下哪个指标适用于衡量分类模型的准确性?()(1分)

A.方差

B.协方差

C.精确率

D.中位数

【答案】C【解析】精确率是分类模型中预测为正例的样本中实际为正例的比例。

8.数据可视化中,哪种图表适合展示时间序列数据?()(1分)

A.散点图

B.柱状图

C.折线图

D.饼图

【答案】C【解析】折线图能清晰展示数据随时间的变化趋势。

9.假设数据集包含1000个样本,抽样率为10%,以下哪种抽样属于非概率抽样?()(1

分)

A.随机抽样

B.分层抽样

C.方便抽样

D.整群抽样

【答案】C【解析】方便抽样基于便利性而非随机性,属于非概率抽样。

10.关于大数据,以下哪个描述是错误的?()(1分)

A.体量大

B.速度快

C.价值密度低

D.多样性

【答案】C【解析】大数据的特点包括体量大、速度快、多样性和价值密度低,但价值

密度低是相对的。

二、多选题(每题4分,共20分)

1.以下哪些属于数据预处理步骤?()(4分)

A.数据清洗

B.数据转换

C.特征工程

D.数据可视化

E.数据归一化

【答案】A、B、C、E【解析】数据预处理包括数据清洗、转换、特征工程和归一化,数

据可视化属于分析阶段。

2.下列哪些指标可用于评估回归模型的性能?()(4分)

A.均方误差(MSE)

B.决定系数(R²)

C.绝对偏差

D.方差膨胀因子(VIF)

E.调整后R²

【答案】A、B、C、E【解析】MSE、R²、绝对偏差、调整后R²用于评估回归模型,VIF

用于检测多重共线性。

3.以下哪些方法可用于聚类分析?()(4分)

A.K-means

B.层次聚类

C.SVM分类

D.DBSCAN

E.主成分分析(PCA)

【答案】A、B、D【解析】K-means、层次聚类、DBSCAN是聚类算法,SVM是分类算法,

PCA是降维方法。

4.关于假设检验,以下说法正确的是?()(4分)

A.显著性水平通常设为0.05

B.p值越小,拒绝原假设的证据越强

C.第一类错误是指拒真错误

D.第二类错误是指纳真错误

E.样本量越大,p值越接近0

【答案】A、B、C、D【解析】显著性水平通常设为0.05,p值越小拒绝原假设的证据越

强,第一类错误是拒真,第二类错误是纳真。

5.以下哪些属于监督学习算法?()(4分)

A.决策树

B.线性回归

C.逻辑回归

D.SVM

E.K-means

【答案】A、B、C、D【解析】决策树、线性回归、逻辑回归、SVM是监督学习,K-means

是聚类算法。

三、填空题(每题2

文档评论(0)

1亿VIP精品文档

相关文档