2026年大数据分析师冲刺试卷试题及答案.docxVIP

  • 1
  • 0
  • 约6.45千字
  • 约 20页
  • 2026-05-26 发布于四川
  • 举报

2026年大数据分析师冲刺试卷试题及答案.docx

2026年大数据分析师冲刺试卷试题及答案

一、单项选择题(每题2分,共30分)

1.以下哪种数据存储方式最适合存储大规模的结构化数据?()

A.关系型数据库

B.非关系型数据库

C.分布式文件系统

D.内存数据库

答案:A。关系型数据库以表格形式存储数据,具有严格的结构,适合存储大规模结构化数据,能够保证数据的一致性和完整性,便于进行复杂的查询和事务处理。非关系型数据库更适合存储半结构化和非结构化数据;分布式文件系统主要用于存储大量的文件;内存数据库主要用于对数据访问速度要求极高的场景。

2.在数据清洗中,处理缺失值的方法不包括()

A.删除含有缺失值的记录

B.用均值填充缺失值

C.用随机值填充缺失值

D.用中位数填充缺失值

答案:C。处理缺失值常见的方法有删除含有缺失值的记录、用均值、中位数等统计量填充缺失值。用随机值填充缺失值会引入噪声,破坏数据的内在规律,不是合适的处理方法。

3.以下哪个是常用的聚类算法?()

A.决策树

B.K均值算法

C.逻辑回归

D.支持向量机

答案:B。K均值算法是经典的聚类算法,它将数据点划分为K个簇,使得簇内的数据点相似度高,簇间的相似度低。决策树是分类和回归算法;逻辑回归用于分类问题;支持向量机可用于分类和回归任务。

4.下列关于数据可视化的说法,错误的是()

A.可视化可以帮助用户更

文档评论(0)

1亿VIP精品文档

相关文档