贵州省专业技术人员在线学习公需科目大数据培训考试试题及答案.docxVIP

下载本文档

0
0
约7.98千字
约 24页
2026-02-08 发布于四川
举报

贵州省专业技术人员在线学习公需科目大数据培训考试试题及答案.docx

贵州省专业技术人员在线学习公需科目大数据培训考试试题及答案

一、单项选择题（每题2分，共40分）

1.贵州省“一云一网一平台”建设的核心目标是

A.降低政务云采购成本

B.实现全省数据资源“聚通用”

C.推广5G基站建设

D.建立区块链金融平台

答案：B

解析：贵州“一云一网一平台”以“聚通用”为总纲，通过统一云基础设施、电子政务外网和政务服务平台，解决数据孤岛、重复建设问题，实现跨层级、跨地域、跨系统数据共享和业务协同。

2.在Hadoop生态中，承担资源管理与任务调度功能的组件是

A.Hive

B.HDFS

C.YARN

D.Flume

答案：C

解析：YARN（YetAnotherResourceNegotiator）将资源管理与计算框架解耦，支持MapReduce、Spark等多种计算模型统一调度，是Hadoop2.x后的核心组件。

3.下列哪项最能体现大数据“4V”特征中的Veracity

A.贵阳地铁每日产生10TB刷卡记录

B.某路口摄像头因雾霾导致车牌识别准确率降至62%

C.双十一峰值订单达58.3万笔/秒

D.省政务服务网汇聚省直部门8000类数据资源

答案：B

解析：Veracity强调数据可信度与质量，雾霾导致图像质量下降直接体现数据不确定性。

4.贵州交通旅游大数据中心通过融合高速收费、公安卡口、OTA订单等数据，实现景区客流预测，其核心技术属于

A.批处理ETL

B.实时流计算

C.数据脱敏

D.数据可视化

答案：B

解析：客流预测需秒级更新，采用Flink或SparkStreaming对多源实时流进行清洗、关联、建模。

5.在数据治理体系中，负责定义“谁的数据、谁负责”的原则称为

A.数据血缘

B.主数据管理

C.数据Owner制度

D.元数据注册

答案：C

解析：Owner制度明确业务对口部门对数据质量、安全、共享负全责，是贵州数据治理“1+3+N”政策文件的核心抓手。

6.下列算法中，最适合对高维稀疏特征进行点击率预估的是

A.K-means

B.随机森林

C.FM（FactorizationMachine）

D.Apriori

答案：C

解析：FM通过隐向量内积自动学习二阶交叉特征，解决高维稀疏下的参数估计问题，是CTR预估经典算法。

7.贵阳城市数据共享交换平台采用“目录区块链”技术，其共识机制为

A.PoW

B.PBFT

C.Raft

D.PoS

答案：B

解析：政务场景需高吞吐、低延迟、可监管，PBFT（PracticalByzantineFaultTolerance）支持≤1/3恶意节点，秒级确认，符合审计要求。

8.对敏感字段“身份证号”实施MD5加密后开放共享，存在的最大风险是

A.彩虹表碰撞

B.密钥泄露

C.对称算法被破解

D.明文被逆向

答案：A

解析：MD5为单向散列，但彩虹表可批量碰撞，身份证号空间小、规律强，极易被反推。

9.在数据仓库分层架构中，DWD层的主要作用是

A.保存原始日志

B.轻度汇总、维度退化

C.明细数据清洗与规范化

D.面向主题的宽表汇总

答案：C

解析：DWD（DataWarehouseDetail）对ODS层做数据清洗、编码统一、字段标准化，为后续汇总提供高质量明细。

10.贵州“大数据+精准脱贫”场景中，识别“虚假脱贫”最常用的指标是

A.家庭WiFi日均流量

B.医保购药频次突变

C.子女教育支出占比

D.手机信令驻留县城时长

答案：B

解析：医保购药频次骤降为0或异常集中，可发现“人户分离”“健康造假”等虚假脱贫线索。

11.在SparkSQL中，以下哪段代码可正确实现DataFrame去重并保留最新一条

A.df.dropDuplicates(id).orderBy(desc(ts))

B.df.sort(desc(ts)).dropDuplicates(id)

C.df.groupBy(id).agg(max(ts))

D.df.distinct()

答案：B

解析：先排序保证同id下最新记录在前，再按id去重，Spark保留首次出现记录，即可实现“最新去重”。

12.贵州省政务云采用“两地三中心”容灾布局，其中“两地”指

A.贵阳、贵安

B.贵阳、遵义

C.贵安、安顺

D.贵阳、毕节

答案：A

解析：主中心贵阳贵安双活，备用中心铜仁，形成“双活+冷备”格局，网络时延≤2ms。

13.以下关于数据沙箱的描述，错误的是

A.提供脱敏数据供外部建模

B.支持算法容器隔离

C.结果导出需审核

D.允许下载原始明细CSV

答案：D

解析：沙箱禁止原始明细出域，仅允许经评估的聚合或脱敏结果导出

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

贵州省专业技术人员在线学习公需科目大数据培训考试试题及答案.docxVIP