- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年数据科学与大数据技术能力测评试题及答案
一、单项选择题(每题2分,共20分)
1.在分析某电商平台用户购买金额分布时,发现数据呈现右偏态(正偏态),则以下统计量关系正确的是:
A.均值中位数众数
B.均值中位数众数
C.中位数均值众数
D.众数均值中位数
答案:A
解析:右偏态分布中,均值受右侧长尾影响较大,通常大于中位数;中位数位于数据中间位置,大于众数(出现频率最高的数值)。
2.以下哪项不是随机森林(RandomForest)相对于梯度提升树(GradientBoostingTree)的典型优势?
A.对异常值不敏感
B.可并行训练
C.天然支持多分类
D.更适合处理高维稀疏数据
答案:D
解析:随机森林通过自助采样(Bootstrap)和特征随机选择降低过拟合,但高维稀疏数据(如文本TF-IDF)中,梯度提升树通过逐步优化损失函数可能更高效,随机森林在此场景下易因特征冗余导致树分裂效率下降。
3.某实时数据流处理系统需支持毫秒级延迟、Exactly-Once语义,且需处理乱序数据(最大延迟30秒),最适合的技术选型是:
A.ApacheSparkStreaming(微批处理)
B.ApacheFlink(事件时间+水印机制)
C.ApacheStorm(原生实时)
D.ApacheKafkaStreams(简单流处理)
答案:B
解析:Flink的事件时间(EventTime)结合水印(Watermark)机制可处理乱序数据,且通过检查点(Checkpoint)实现Exactly-Once语义,延迟可控制在毫秒级;SparkStreaming的微批处理延迟通常在秒级,Storm的At-Least-Once语义需额外处理,KafkaStreams对复杂乱序场景支持较弱。
4.在特征工程中,对“用户注册时间(精确到秒)”字段进行特征构造时,以下哪项操作最不合理?
A.提取“注册小时”作为类别特征
B.计算“注册时间与当前时间的时间差(天)”作为连续特征
C.直接将时间戳(Unix秒数)作为连续特征输入模型
D.对时间戳进行傅里叶变换,提取周期性特征(如周周期)
答案:C
解析:时间戳(如1717238400)作为连续特征时,模型难以直接捕捉时间的周期性(如每天、每周的模式),需通过离散化、周期变换等方式转换;A、B、D均为合理的时间特征构造方法。
5.评估一个二分类模型时,若实际正类样本占比仅0.1%(极不平衡),以下指标中最不适合作为核心评估指标的是:
A.准确率(Accuracy)
B.F1-score
C.AUC-ROC
D.召回率(Recall)
答案:A
解析:极不平衡数据中,模型若全部预测为负类,准确率仍可达99.9%,无法反映模型对正类的识别能力;F1-score综合精确率和召回率,AUC-ROC对类别不平衡不敏感,召回率关注正类覆盖,均更合理。
6.以下关于Hadoop生态组件的描述,错误的是:
A.HBase基于HDFS存储,支持随机读写
B.Hive的底层计算引擎可替换为MapReduce、Tez或Spark
C.ZooKeeper主要用于分布式系统的配置管理和Leader选举
D.Flume仅支持实时数据流的采集,不支持批量数据传输
答案:D
解析:Flume支持实时流(如日志实时采集)和批量数据(通过设置批次大小),其核心是将数据从源(如日志文件)传输到存储(如HDFS、Kafka),支持多种传输模式。
7.在使用PyTorch训练深度学习模型时,若发现训练损失(TrainingLoss)持续下降,但验证损失(ValidationLoss)先下降后上升,最可能的原因是:
A.学习率过小
B.模型过拟合
C.数据未归一化
D.批量大小(BatchSize)过大
答案:B
解析:训练损失下降而验证损失上升,是典型的过拟合现象(模型在训练集上过强,无法泛化到验证集);学习率过小会导致训练缓慢,数据未归一化可能导致训练不稳定,批量过大可能影响梯度估计准确性,但不会直接导致验证损失上升。
8.某银行需构建反欺诈模型,要求模型能够解释“哪些特征对欺诈判定起关键作用”,以下模型中最不适合的是:
A.逻辑回归(LogisticRegression)
B.梯度提升树(XGBoost)+SHAP值
C.全连接神经网络(FullyConnectedNN)
D.决策树(Decis
您可能关注的文档
最近下载
- 诗词大会训练题库(九宫格) (1).ppt VIP
- 防撞护栏安全交底.docx VIP
- DBJ51T 137-2020 四川省塔式起重机装配式基础技术标准 .pdf VIP
- 2025年四川省国家工作人员法治素养测评三考试题及参考答案.docx VIP
- 中铁三局渝万高铁站前3标预制简支箱梁四角高差汇报-1.pptx VIP
- 2024年肠内营养支持的护理实践.pptx
- 2025年一级造价工程师《建设工程技术与计量(土建)》真题及答案解析.docx VIP
- 企业经营中的供应链管理.pptx
- 数字浪潮下:大学生微信使用行为与媒体素养的深度关联研究.docx
- 基于痕迹检验的交通事故鉴定案例分析.pptx VIP
原创力文档


文档评论(0)