- 0
- 0
- 约7.98千字
- 约 24页
- 2026-02-08 发布于四川
- 举报
贵州省专业技术人员在线学习公需科目大数据培训考试试题及答案
一、单项选择题(每题2分,共40分)
1.贵州省“一云一网一平台”建设的核心目标是
A.降低政务云采购成本
B.实现全省数据资源“聚通用”
C.推广5G基站建设
D.建立区块链金融平台
答案:B
解析:贵州“一云一网一平台”以“聚通用”为总纲,通过统一云基础设施、电子政务外网和政务服务平台,解决数据孤岛、重复建设问题,实现跨层级、跨地域、跨系统数据共享和业务协同。
2.在Hadoop生态中,承担资源管理与任务调度功能的组件是
A.Hive
B.HDFS
C.YARN
D.Flume
答案:C
解析:YARN(YetAnotherResourceNegotiator)将资源管理与计算框架解耦,支持MapReduce、Spark等多种计算模型统一调度,是Hadoop2.x后的核心组件。
3.下列哪项最能体现大数据“4V”特征中的Veracity
A.贵阳地铁每日产生10TB刷卡记录
B.某路口摄像头因雾霾导致车牌识别准确率降至62%
C.双十一峰值订单达58.3万笔/秒
D.省政务服务网汇聚省直部门8000类数据资源
答案:B
解析:Veracity强调数据可信度与质量,雾霾导致图像质量下降直接体现数据不确定性。
4.贵州交通旅游大数据中心通过融合高速收费、公安卡口、OTA订单等数据,实现景区客流预测,其核心技术属于
A.批处理ETL
B.实时流计算
C.数据脱敏
D.数据可视化
答案:B
解析:客流预测需秒级更新,采用Flink或SparkStreaming对多源实时流进行清洗、关联、建模。
5.在数据治理体系中,负责定义“谁的数据、谁负责”的原则称为
A.数据血缘
B.主数据管理
C.数据Owner制度
D.元数据注册
答案:C
解析:Owner制度明确业务对口部门对数据质量、安全、共享负全责,是贵州数据治理“1+3+N”政策文件的核心抓手。
6.下列算法中,最适合对高维稀疏特征进行点击率预估的是
A.K-means
B.随机森林
C.FM(FactorizationMachine)
D.Apriori
答案:C
解析:FM通过隐向量内积自动学习二阶交叉特征,解决高维稀疏下的参数估计问题,是CTR预估经典算法。
7.贵阳城市数据共享交换平台采用“目录区块链”技术,其共识机制为
A.PoW
B.PBFT
C.Raft
D.PoS
答案:B
解析:政务场景需高吞吐、低延迟、可监管,PBFT(PracticalByzantineFaultTolerance)支持≤1/3恶意节点,秒级确认,符合审计要求。
8.对敏感字段“身份证号”实施MD5加密后开放共享,存在的最大风险是
A.彩虹表碰撞
B.密钥泄露
C.对称算法被破解
D.明文被逆向
答案:A
解析:MD5为单向散列,但彩虹表可批量碰撞,身份证号空间小、规律强,极易被反推。
9.在数据仓库分层架构中,DWD层的主要作用是
A.保存原始日志
B.轻度汇总、维度退化
C.明细数据清洗与规范化
D.面向主题的宽表汇总
答案:C
解析:DWD(DataWarehouseDetail)对ODS层做数据清洗、编码统一、字段标准化,为后续汇总提供高质量明细。
10.贵州“大数据+精准脱贫”场景中,识别“虚假脱贫”最常用的指标是
A.家庭WiFi日均流量
B.医保购药频次突变
C.子女教育支出占比
D.手机信令驻留县城时长
答案:B
解析:医保购药频次骤降为0或异常集中,可发现“人户分离”“健康造假”等虚假脱贫线索。
11.在SparkSQL中,以下哪段代码可正确实现DataFrame去重并保留最新一条
A.df.dropDuplicates(id).orderBy(desc(ts))
B.df.sort(desc(ts)).dropDuplicates(id)
C.df.groupBy(id).agg(max(ts))
D.df.distinct()
答案:B
解析:先排序保证同id下最新记录在前,再按id去重,Spark保留首次出现记录,即可实现“最新去重”。
12.贵州省政务云采用“两地三中心”容灾布局,其中“两地”指
A.贵阳、贵安
B.贵阳、遵义
C.贵安、安顺
D.贵阳、毕节
答案:A
解析:主中心贵阳贵安双活,备用中心铜仁,形成“双活+冷备”格局,网络时延≤2ms。
13.以下关于数据沙箱的描述,错误的是
A.提供脱敏数据供外部建模
B.支持算法容器隔离
C.结果导出需审核
D.允许下载原始明细CSV
答案:D
解析:沙箱禁止原始明细出域,仅允许经评估的聚合或脱敏结果导出
原创力文档

文档评论(0)