- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师职业资格认证考试试卷
一、单项选择题(共10题,每题1分,共10分)
Hadoop分布式文件系统(HDFS)的默认块大小是?
A.64MB
B.128MB
C.256MB
D.512MB
答案:B
解析:HDFS设计默认块大小为128MB(Hadoop2.x及以上版本),目的是减少NameNode内存占用(元数据存储块位置信息),同时适配大文件处理场景(如日志、音视频)。选项A是Hadoop1.x的默认块大小;C、D为常见自定义配置值,非默认。
以下哪个工具属于实时流处理框架?
A.Hive
B.SparkSQL
C.Flink
D.Presto
答案:C
解析:Flink是专为流处理优化的分布式计算框架,支持事件时间(EventTime)和精准一次(Exactly-Once)语义。Hive(A)是基于Hadoop的数据仓库工具,主要用于批处理;SparkSQL(B)是Spark的SQL模块,支持批处理和微批流处理(非原生流);Presto(D)是分布式SQL查询引擎,用于交互式分析。
在HBase中,RowKey的存储顺序是?
A.字典序升序
B.哈希散列
C.时间戳降序
D.随机分布
答案:A
解析:HBase基于HDFS存储,数据按RowKey的字典序升序排列存储在Region中。这种设计便于范围查询(如Scan操作),但需注意RowKey的设计避免热点问题(如时间戳作为前缀可能导致写集中)。B是分布式系统常用的分片策略(如Redis);C是部分时序数据库的设计;D不符合HBase的存储逻辑。
以下哪个指标不属于Kafka生产者的关键性能参数?
A.BatchSize
B.Linger.ms
C.Request.Timeout.ms
D.Replication.Factor
答案:D
解析:Replication.Factor(副本因子)是Kafka主题级别的配置参数,用于控制数据冗余,不属于生产者端参数。BatchSize(A)控制批量发送的消息大小;Linger.ms(B)控制批量发送的等待时间;Request.Timeout.ms(C)控制生产者等待Broker确认的超时时间,均为生产者关键参数。
Spark中,以下哪个操作属于行动(Action)?
A.map()
B.filter()
C.reduce()
D.flatMap()
答案:C
解析:行动操作(Action)触发计算并返回结果或写入存储,reduce()会聚合RDD元素并返回最终值。map()(A)、filter()(B)、flatMap()(D)均为转换操作(Transformation),仅定义计算逻辑,不会立即执行。
数据清洗中处理缺失值的常用方法不包括?
A.删除缺失值所在行
B.用均值/中位数填充
C.用KNN算法预测填充
D.直接保留缺失值用于建模
答案:D
解析:缺失值会导致模型训练错误(如梯度计算异常),因此需处理。A(删除)适用于缺失比例低的场景;B(统计值填充)适用于数值型数据;C(KNN填充)利用相似样本预测,适用于高维数据。D会导致模型报错或偏差,不属于合理方法。
在分布式系统中,CAP定理的“C”指?
A.一致性(Consistency)
B.可用性(Availability)
C.分区容错性(PartitionTolerance)
D.完整性(Completeness)
答案:A
解析:CAP定理指出分布式系统无法同时满足一致性(C)、可用性(A)、分区容错性(P)三者,最多满足两个。B是系统持续提供服务的能力;C是系统在网络分区时仍能运行的能力;D非CAP定理术语。
以下哪个数据库属于列式存储?
A.MySQL
B.Cassandra
C.HBase
D.ClickHouse
答案:D
解析:ClickHouse是专为分析设计的列式数据库,按列存储数据,适合高并发读和复杂聚合查询。MySQL(A)是行式关系型数据库;Cassandra(B)是分布式宽列存储数据库;HBase(C)是基于列族的NoSQL数据库,非严格列式存储。
数据湖(DataLake)与数据仓库(DataWarehouse)的核心差异在于?
A.存储介质(磁盘vs内存)
B.数据结构(结构化vs非结构化)
C.访问速度(实时vs离线)
D.管理方式(集中式vs分布式)
答案:B
解析:数据湖存储原始、多格式数据(结构化、半结构化、非结构化),采用“读时模式”(Schema-on-Read);数据仓库存储已清洗、结构化数据,采用“写时模式”(Schema-on-Write)。A(存储介质)、C(访问速度)、D(管理方式)均非核心差异。
以下哪个工具用于H
您可能关注的文档
- 2025年侍酒师考试题库(附答案和详细解析)(1126).docx
- 2025年志愿服务管理师考试题库(附答案和详细解析)(1122).docx
- 2025年智能家居工程师考试题库(附答案和详细解析)(1123).docx
- 2025年机器人操作工程师考试题库(附答案和详细解析)(1124).docx
- 2025年注册港口与航道工程师考试题库(附答案和详细解析)(1125).docx
- 2025年注册证券分析师(RSA)考试题库(附答案和详细解析)(1124).docx
- 2025年特许公认会计师(ACCA)考试题库(附答案和详细解析)(1123).docx
- 2025年监理工程师考试题库(附答案和详细解析)(1112).docx
- 2025年职业生涯规划师考试题库(附答案和详细解析)(1119).docx
- AI生成内容对资本市场信息传递效率的冲击.docx
- 2025河北工业大学廊坊分校招聘劳务派遣制工作人员2名笔试备考题库含答案解析(必刷).docx
- 2025年科技护肤测试题及答案.doc
- 2025河北工业大学廊坊分校招聘劳务派遣制工作人员2名笔试备考题库含答案解析(夺冠).docx
- 2025河北工业大学廊坊分校招聘劳务派遣制工作人员2名笔试题库带答案解析.docx
- 2025河北工业大学廊坊分校招聘劳务派遣制工作人员2名笔试历年题库及答案解析(必刷).docx
- 2025河北工业大学廊坊分校招聘劳务派遣制工作人员2名备考题库带答案解析(夺冠).docx
- 2025河北工业大学廊坊分校招聘劳务派遣制工作人员2名笔试备考题库附答案解析.docx
- 2025河北工业大学廊坊分校招聘劳务派遣制工作人员2名参考题库及答案解析(必刷).docx
- 2025河北工业大学廊坊分校招聘劳务派遣制工作人员2名笔试历年题库及答案解析(夺冠).docx
- 2025河北工业大学廊坊分校招聘劳务派遣制工作人员2名历年题库带答案解析(夺冠).docx
原创力文档


文档评论(0)