《Python数据分析与挖掘》期末考试试卷(附答案).docxVIP

  • 123
  • 0
  • 约6.99千字
  • 约 16页
  • 2025-08-21 发布于四川
  • 举报

《Python数据分析与挖掘》期末考试试卷(附答案).docx

《Python数据分析与挖掘》期末考试试卷(附答案)

考试时间:120分钟总分:100分

一、单项选择题(每题2分,共20分)

1.以下关于pandas库中DataFrame的描述,错误的是()。

A.DataFrame可视为二维表格,包含行索引(index)和列索引(columns)

B.可通过`pd.DataFrame({A:[1,2],B:[3,4]})`创建

C.若需按行筛选数据,需使用`loc`或`iloc`方法,无法直接用列名筛选

D.可通过`df.info()`查看数据的列名、非空值数量及数据类型

2.对于数组`arr=np.array([[1,2,3],[4,5,6]])`,执行`arr[1,::2]`的结果是()。

A.`[4,5]`B.`[4,6]`C.`[5,6]`D.`[2,6]`

3.某数据集中`age`列存在缺失值,若需用该列的中位数填充缺失值,正确的代码是()。

A.`df[age].fillna(df[age].mean())`

B.`df[age].fillna(df[age].median())`

C.`df[age].dropna(how=any)`

D.`df[age].replace(np.nan,df[age].mode())`

4.以下哪项不是数据清洗的主要任务?()

A.处理缺失值B.消除重复值C.特征标准化D.纠正异常值

5.若需绘制某电商平台2023年月度销售额的趋势图,最适合的可视化工具是()。

A.散点图(scatterplot)B.柱状图(barplot)

C.折线图(lineplot)D.箱线图(boxplot)

6.对于分类问题,若样本标签严重不平衡(如正类占99%),以下哪种评估指标最不可靠?()

A.准确率(Accuracy)B.精确率(Precision)

C.召回率(Recall)D.F1分数(F1-score)

7.在scikit-learn中,使用逻辑回归(LogisticRegression)模型训练时,若需解决多重共线性问题,应调整的参数是()。

A.`penalty`(正则化类型)B.`max_iter`(最大迭代次数)

C.`solver`(优化器)D.`class_weight`(类别权重)

8.以下关于特征工程的描述,错误的是()。

A.独热编码(One-HotEncoding)适用于无序分类变量

B.标准化(Standardization)会将数据缩放至均值为0、标准差为1

C.特征提取的目标是从原始数据中构造更具代表性的新特征

D.所有连续型变量都需要离散化处理

9.某数据集包含`user_id`(用户ID)、`order_time`(下单时间)、`amount`(金额)三列,若需统计“每个用户的总消费金额”,应使用的操作是()。

A.`df.groupby(user_id)[amount].sum()`

B.`df.groupby(order_time)[amount].mean()`

C.`df.groupby([user_id,order_time])[amount].count()`

D.`df.groupby(amount)[user_id].nunique()`

10.若需评估两个变量(均为连续型)的线性相关程度,应计算()。

A.卡方统计量(Chi-square)B.皮尔逊相关系数(Pearson)

C.斯皮尔曼相关系数(Spearman)D.互信息(MutualInformation)

二、填空题(每题1分,共10分)

1.pandas中用于合并两个DataFrame(按行追加)的函数是__________。

2.numpy中生成从0到10(含10)、步长为2的等差数列的函数是__________。

3.数据可视化库matplotlib中,用于设置图表标题的函数是__________。

4.若某特征的取值为[10,20,30,40],经最小-最大归一化(Min-MaxScaling)后,取值范围变为__________。

5.决策树算法中,衡量数据混乱程度的指标通常是__________或基尼系数(Gini)。

6.在分类问题中,真阳性率(TPR)等于__________除以实际正类总数。

7.sci

文档评论(0)

1亿VIP精品文档

相关文档