- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年大数据考试题目及答案
一、单项选择题(每题2分,共20分)
1.以下关于大数据存储系统的描述中,错误的是()。
A.HDFS适合存储大文件,默认块大小为128MB
B.HBase基于列存储,适合随机读写小数据
C.对象存储(如AWSS3)通过键值对管理,支持高并发小文件访问
D.数据湖(DataLake)通常采用模式写入(Schema-on-Write)设计
答案:D
解析:数据湖采用模式读取(Schema-on-Read)设计,允许原始数据直接存储后再定义结构;模式写入是数据仓库(DataWarehouse)的典型特征。
2.在Spark中,以下操作属于宽依赖(WideDependency)的是()。
A.map()
B.filter()
C.groupByKey()
D.flatMap()
答案:C
解析:宽依赖会导致数据洗牌(Shuffle),需要跨分区重新分布数据,groupByKey()需要按键聚合,涉及Shuffle;其他选项为窄依赖,每个父RDD分区仅被一个子RDD分区使用。
3.某电商平台需实时监控用户下单到支付的转化漏斗,要求延迟低于1秒,最适合的技术方案是()。
A.使用Hive进行离线ETL,每日计算转化率
B.基于Kafka采集数据流,用Flink进行实时窗口计算
C.通过Sqoop将业务数据库数据导入HDFS,用SparkSQL分析
D.利用Elasticsearch存储日志,通过Kibana可视化
答案:B
解析:实时监控需低延迟处理流数据,Kafka作为消息队列缓冲数据流,Flink支持毫秒级窗口计算,符合延迟要求;其他方案均为离线或准实时处理。
4.关于数据治理的关键要素,以下表述错误的是()。
A.数据质量包括完整性、准确性、一致性、时效性
B.元数据管理仅需记录数据的存储位置和格式
C.数据安全需通过权限控制、脱敏加密等手段保障
D.数据血缘分析用于追踪数据从产生到消亡的全链路
答案:B
解析:元数据管理不仅包括存储位置和格式(技术元数据),还需业务元数据(如业务含义、指标定义)和管理元数据(如责任人、更新频率)。
5.某企业需构建用户画像系统,需整合结构化(MySQL)、半结构化(JSON日志)、非结构化(用户评论)数据,最佳存储方案是()。
A.全部存入HBase,通过RowKey关联
B.结构化数据存关系型数据库,其他存HDFS
C.采用湖仓一体架构(Lakehouse),统一存储并支持多模式
D.非结构化数据存对象存储,结构化和半结构化存数据仓库
答案:C
解析:湖仓一体架构结合了数据湖的多格式存储能力和数据仓库的结构化查询优势,支持统一元数据管理,适合整合多类型数据构建用户画像。
6.在Flink中,设置Watermark的主要目的是()。
A.提高任务并行度
B.处理乱序事件时间数据
C.减少内存使用量
D.优化Checkpoint间隔
答案:B
解析:Watermark(水位线)用于标记事件时间的进度,允许系统在一定延迟范围内等待迟到数据,解决乱序数据导致的计算不准确问题。
7.以下不属于NoSQL数据库特点的是()。
A.支持ACID事务
B.水平扩展能力强
C.灵活的模式(Schema-Free)
D.适合非结构化数据存储
答案:A
解析:NoSQL通常牺牲强一致性以换取高可用和扩展性,传统关系型数据库(如MySQL)支持ACID事务。
8.某银行需对历史交易数据进行欺诈检测,要求模型能处理高维稀疏特征且训练效率高,最适合的工具是()。
A.SparkMLlib的LogisticRegression(逻辑回归)
B.H2O的深度神经网络(DNN)
C.TensorFlow的卷积神经网络(CNN)
D.ApacheMahout的协同过滤
答案:A
解析:LogisticRegression在高维稀疏数据(如交易特征)上训练效率高,且SparkMLlib支持分布式计算,适合银行级大数据量;DNN和CNN计算复杂度高,协同过滤用于推荐场景。
9.关于Kafka的分区(Partition)机制,以下说法正确的是()。
A.分区数越多,消费者组的并行度越低
B.消息按Key哈希分配到分区,相同Key的消息进入同一分区
C.分区的Leader副本仅负责读取,Follower负责写入
D.分区数一旦设置无法修改
您可能关注的文档
最近下载
- GST-XG9000A消防应急广播设备调试使用说明书A.doc VIP
- 访谈美国医学生.doc VIP
- 13美丽中国我们的家第2课时 课件 2025道德与法治二年级上册.ppt
- 新疆天山群吉萨依铜多金属矿床地质特征及成因.docx VIP
- 8.6《数学锯木头+爬楼梯问题》三年级上册.doc VIP
- 22g101-3独立基础、条形基础、筏板基础、桩基础.pptx VIP
- 消防鉴定考试承诺书下载.docx VIP
- 2025年06月英语四级真题及答案(共三套).pdf VIP
- 八年级上册数学-全册全套试卷易错题(Word版-含答案).doc VIP
- 广东省深圳市宝安区2024-2025学年三年级上学期Units1-4学业中段复习.docx VIP
原创力文档


文档评论(0)