贵州省专业技术人员在线学习公需科目大数据培训考试试题及答案.docxVIP

  • 0
  • 0
  • 约7.98千字
  • 约 24页
  • 2026-02-08 发布于四川
  • 举报

贵州省专业技术人员在线学习公需科目大数据培训考试试题及答案.docx

贵州省专业技术人员在线学习公需科目大数据培训考试试题及答案

一、单项选择题(每题2分,共40分)

1.贵州省“一云一网一平台”建设的核心目标是

A.降低政务云采购成本

B.实现全省数据资源“聚通用”

C.推广5G基站建设

D.建立区块链金融平台

答案:B

解析:贵州“一云一网一平台”以“聚通用”为总纲,通过统一云基础设施、电子政务外网和政务服务平台,解决数据孤岛、重复建设问题,实现跨层级、跨地域、跨系统数据共享和业务协同。

2.在Hadoop生态中,承担资源管理与任务调度功能的组件是

A.Hive

B.HDFS

C.YARN

D.Flume

答案:C

解析:YARN(YetAnotherResourceNegotiator)将资源管理与计算框架解耦,支持MapReduce、Spark等多种计算模型统一调度,是Hadoop2.x后的核心组件。

3.下列哪项最能体现大数据“4V”特征中的Veracity

A.贵阳地铁每日产生10TB刷卡记录

B.某路口摄像头因雾霾导致车牌识别准确率降至62%

C.双十一峰值订单达58.3万笔/秒

D.省政务服务网汇聚省直部门8000类数据资源

答案:B

解析:Veracity强调数据可信度与质量,雾霾导致图像质量下降直接体现数据不确定性。

4.贵州交通旅游大数据中心通过融合高速收费、公安卡口、OTA订单等数据,实现景区客流预测,其核心技术属于

A.批处理ETL

B.实时流计算

C.数据脱敏

D.数据可视化

答案:B

解析:客流预测需秒级更新,采用Flink或SparkStreaming对多源实时流进行清洗、关联、建模。

5.在数据治理体系中,负责定义“谁的数据、谁负责”的原则称为

A.数据血缘

B.主数据管理

C.数据Owner制度

D.元数据注册

答案:C

解析:Owner制度明确业务对口部门对数据质量、安全、共享负全责,是贵州数据治理“1+3+N”政策文件的核心抓手。

6.下列算法中,最适合对高维稀疏特征进行点击率预估的是

A.K-means

B.随机森林

C.FM(FactorizationMachine)

D.Apriori

答案:C

解析:FM通过隐向量内积自动学习二阶交叉特征,解决高维稀疏下的参数估计问题,是CTR预估经典算法。

7.贵阳城市数据共享交换平台采用“目录区块链”技术,其共识机制为

A.PoW

B.PBFT

C.Raft

D.PoS

答案:B

解析:政务场景需高吞吐、低延迟、可监管,PBFT(PracticalByzantineFaultTolerance)支持≤1/3恶意节点,秒级确认,符合审计要求。

8.对敏感字段“身份证号”实施MD5加密后开放共享,存在的最大风险是

A.彩虹表碰撞

B.密钥泄露

C.对称算法被破解

D.明文被逆向

答案:A

解析:MD5为单向散列,但彩虹表可批量碰撞,身份证号空间小、规律强,极易被反推。

9.在数据仓库分层架构中,DWD层的主要作用是

A.保存原始日志

B.轻度汇总、维度退化

C.明细数据清洗与规范化

D.面向主题的宽表汇总

答案:C

解析:DWD(DataWarehouseDetail)对ODS层做数据清洗、编码统一、字段标准化,为后续汇总提供高质量明细。

10.贵州“大数据+精准脱贫”场景中,识别“虚假脱贫”最常用的指标是

A.家庭WiFi日均流量

B.医保购药频次突变

C.子女教育支出占比

D.手机信令驻留县城时长

答案:B

解析:医保购药频次骤降为0或异常集中,可发现“人户分离”“健康造假”等虚假脱贫线索。

11.在SparkSQL中,以下哪段代码可正确实现DataFrame去重并保留最新一条

A.df.dropDuplicates(id).orderBy(desc(ts))

B.df.sort(desc(ts)).dropDuplicates(id)

C.df.groupBy(id).agg(max(ts))

D.df.distinct()

答案:B

解析:先排序保证同id下最新记录在前,再按id去重,Spark保留首次出现记录,即可实现“最新去重”。

12.贵州省政务云采用“两地三中心”容灾布局,其中“两地”指

A.贵阳、贵安

B.贵阳、遵义

C.贵安、安顺

D.贵阳、毕节

答案:A

解析:主中心贵阳贵安双活,备用中心铜仁,形成“双活+冷备”格局,网络时延≤2ms。

13.以下关于数据沙箱的描述,错误的是

A.提供脱敏数据供外部建模

B.支持算法容器隔离

C.结果导出需审核

D.允许下载原始明细CSV

答案:D

解析:沙箱禁止原始明细出域,仅允许经评估的聚合或脱敏结果导出

文档评论(0)

1亿VIP精品文档

相关文档