- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年大数据分析与应用1+X证书考试模拟题(四)(含答案解析)
第一部分:单项选择题(共20题,每题1分)
1、数据清洗中处理缺失值的常用方法是?
A删除记录
B填充均值
C忽略不管
D替换符号
答案:B
解析:数据清洗中缺失值处理需平衡数据完整性与分析准确性。删除记录(A)可能导致样本偏差;忽略不管(C)会直接影响后续分析结果;替换符号(D)无明确业务意义。填充均值(B)是数值型变量最常用的缺失值处理方法,能保持数据分布特征。
2、HDFS中负责管理文件元数据的节点是?
ADataNode
BNameNode
CSecondaryNameNode
DJournalNode
答案:B
解析:HDFS架构中,NameNode(B)是主节点,负责存储文件元数据(如文件块位置、副本数)及管理文件系统命名空间。DataNode(A)存储具体数据块;SecondaryNameNode(C)辅助NameNode元数据检查点;JournalNode(D)用于高可用集群日志同步,均不负责元数据管理。
3、SQL中对分组后数据过滤应使用?
AWHERE
BHAVING
CORDERBY
DGROUPBY
答案:B
解析:WHERE(A)用于对原始表数据行进行过滤,作用于分组前;HAVING(B)专门用于对GROUPBY分组后的结果进行条件筛选;ORDERBY(C)用于排序;GROUPBY(D)用于分组操作本身。
4、下列不属于结构化数据的是?
A数据库表
BExcel表格
C网页文本
D统计报表
答案:C
解析:结构化数据具有固定格式和明确字段(如数据库表、Excel、统计报表),便于用二维表结构表示。网页文本(C)属于半结构化或非结构化数据,无统一字段约束,需额外解析。
5、K-means聚类的核心是?
A计算余弦相似度
B最小化类内距离
C最大化类间距离
D确定决策边界
答案:B
解析:K-means通过迭代将数据点分配到最近的簇中心,目标是最小化所有数据点到其所属簇中心的距离平方和(类内距离)。余弦相似度(A)是文本相似度度量;最大化类间距离(C)是判别分析目标;决策边界(D)是分类算法特征。
6、数据可视化的核心目标是?
A展示技术复杂度
B清晰传递信息
C使用丰富色彩
D制作动态效果
答案:B
解析:数据可视化的本质是通过图形化手段帮助用户快速理解数据内涵。展示技术(A)、丰富色彩(C)、动态效果(D)是辅助手段,核心目标是清晰传递信息(B)。
7、Hive中用于定义表结构的语句是?
ASELECT
BINSERT
CCREATETABLE
DDROPTABLE
答案:C
解析:CREATETABLE(C)用于定义表的列名、数据类型及存储格式;SELECT(A)用于查询;INSERT(B)用于插入数据;DROPTABLE(D)用于删除表,均不涉及表结构定义。
8、下列属于非关系型数据库的是?
AMySQL
BOracle
CMongoDB
DSQLServer
答案:C
解析:MySQL(A)、Oracle(B)、SQLServer(D)均为关系型数据库,采用表结构存储。MongoDB(C)是文档型NoSQL数据库,使用BSON格式存储,属于非关系型数据库。
9、数据标准化的主要目的是?
A增加数据量
B消除量纲影响
C提高数据精度
D减少数据维度
答案:B
解析:不同变量可能具有不同量纲(如身高cm与体重kg),标准化(如Z-score)通过将数据转换为均值0、标准差1的分布,消除量纲差异对模型的影响。增加数据量(A)需数据采集;提高精度(C)依赖测量工具;减少维度(D)是降维任务。
10、Spark中RDD的特性不包括?
A不可变
B可分区
C可持久化
D实时更新
答案:D
解析:RDD(弹性分布式数据集)是不可变(A)、可分区(B)、可持久化(C)的分布式集合。因其不可变性,无法实时更新(D),修改操作会生成新RDD。
11、下列属于监督学习的是?
AK-means聚类
B主成分分析
C线性回归
D关联规则挖掘
答案:C
解析:监督学习需要标签数据(输入-输出对),线性回归(C)通过训练数据学习输入特征与连续输出的关系。聚类(A)、主成分分析(B)、关联规则(D)均为无监督学习,无需标签。
12、数据仓库的核心特征是?
A实时性高
B面向事务
C支持查询分析
D数据易变
答案:C
解析:数据仓库是面向主题、集成、非易变、时变的数据集合,主要支持决策分析(C)。实时性(A)、面向事务(B)、数据易变(D)是OLTP数据库的特征。
13、HBase的存储模型是?
A键值对
B二维表
C文档
D图结构
答案:A
解析:HBase基于HDFS构建,采用键值对(RowKey+列族+时间戳)的存储模型(A)。二维表(B)是关系型数据库;
您可能关注的文档
- 2024年长者服务专员岗位专项能力培训考试题库(二)(含答案解析).docx
- 2024年长者服务专员岗位专项能力培训考试题库(四)(含答案解析).docx
- 2024年针灸推拿师岗位专业技能培训考试(二)(含答案解析).docx
- 2024年针灸推拿师岗位专业技能培训考试(四)(含答案解析).docx
- 2024年整理收纳师岗位能力水平测试题库(二)(含答案解析).docx
- 2024年正骨整脊师岗位能力培训考核试题(三)(含答案解析).docx
- 2024年正骨整脊师岗位能力培训考核试题(五)(含答案解析).docx
- 2024年正骨整脊师岗位能力培训考核试题(一)(含答案解析).docx
- 2024年直播销售员职业技能等级认定考试真题(三)(含答案解析).docx
- 2024年直播销售员职业技能等级认定考试真题(五)(含答案解析).docx
一级建造师、一级造价工程师持证人
专注于文案、招投标文件、企业体系规章制定的个性定制,修改,润色等,本人已有11年相关工作经验,具有扎实的文案功底,可承接演讲稿、读后感、招投标文件等多方面的工作。欢迎大家咨询~
原创力文档


文档评论(0)