- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年数据科学与大数据技术专业考试题及答案
一、单项选择题(每题2分,共20分)
1.以下关于数据类型的描述中,错误的是()
A.身高(cm)属于连续型数值数据
B.用户性别(男/女)属于名义型分类数据
C.商品评分(1-5星)属于有序型分类数据
D.日期(如2025-03-15)属于定比型数据
2.若某数据集的偏度(Skewness)为-1.2,峰度(Kurtosis)为3.8,说明该数据分布()
A.左偏,尾部比正态分布更重
B.右偏,尾部比正态分布更轻
C.左偏,尾部比正态分布更轻
D.右偏,尾部比正态分布更重
3.以下机器学习算法中,不属于集成学习(EnsembleLearning)的是()
A.随机森林(RandomForest)
B.梯度提升决策树(GBDT)
C.K近邻(KNN)
D.XGBoost
4.对于高维稀疏数据(如文本TF-IDF特征),最适合的降维方法是()
A.主成分分析(PCA)
B.线性判别分析(LDA)
C.奇异值分解(SVD)
D.t-分布随机邻域嵌入(t-SNE)
5.以下关于HadoopHDFS的描述中,正确的是()
A.默认块大小为32MB,适合存储大量小文件
B.元数据(NameNode)存储文件的位置信息,支持高并发读写
C.数据副本数默认为3,通过机架感知策略提高可靠性
D.支持随机读写,适合实时查询场景
6.在Spark中,RDD(弹性分布式数据集)的“持久化(Persist)”操作主要用于()
A.将RDD数据写入磁盘,避免内存溢出
B.缓存RDD到内存或磁盘,减少重复计算
C.强制触发行动操作(Action),生成计算结果
D.将RDD转换为DataFrame,利用结构化查询优化
7.某分类模型的混淆矩阵如下(行:真实类别,列:预测类别):
真实正类:TP=80,FN=20;真实负类:FP=10,TN=90。则模型的F1分数为()
A.0.842
B.0.889
C.0.900
D.0.941
8.以下关于Kafka的描述中,错误的是()
A.基于发布-订阅模式,支持高吞吐量消息传输
B.消息存储在“主题(Topic)”中,按分区(Partition)分布式存储
C.消费者通过偏移量(Offset)记录已消费位置,支持断点续传
D.适合实时数据流处理,但不支持离线数据回放
9.在数据清洗中,处理缺失值的方法不包括()
A.用特征均值/中位数填充
B.删除缺失值超过阈值的样本或特征
C.用KNN算法预测缺失值
D.直接保留缺失值,由模型自行处理
10.对于时间序列预测任务,以下特征中最不相关的是()
A.过去7天的平均值
B.当天是否为节假日
C.特征变量的滞后1期值(t-1)
D.特征变量的标准差(全局统计量)
二、填空题(每题2分,共20分)
1.统计学中,反映数据离散程度的常用指标有方差、标准差、______和四分位距。
2.机器学习中,过拟合的本质是模型对______的拟合能力过强,导致泛化能力下降。
3.关联规则挖掘中,支持度(Support)的计算公式为______。
4.HBase的表数据按______排序存储,底层依赖HDFS作为存储系统。
5.梯度下降算法中,每次仅用1个样本计算梯度的方法称为______。
6.自然语言处理(NLP)中,将文本转换为向量的经典方法有词袋模型(BagofWords)和______。
7.实时数据处理框架Flink的核心抽象是______,支持事件时间(EventTime)和处理时间(ProcessingTime)。
8.分类问题中,若正负样本比例为1:100,常用的评估指标是______(如精确率、召回率、F1分数、AUC-ROC等)。
9.分布式计算中,______是指将计算任务移动到数据所在的节点执行,以减少网络传输开销。
10.强化学习(ReinforcementLearning)的三要素是状态(State)、动作(Action)和______。
三、简答题(每题8分,共40分)
1.简述数据标准化(Z-ScoreNormalization)与归一化(Min-MaxScaling)的区别及应用场景。
2.对比监督学习与无监督学习的核心差异,并各举两个典型算法。
3.说明分布式计算中“数据本地性(
您可能关注的文档
最近下载
- 《园林景观手绘技法表现》教案——项目5园林景观立面图表现技法.docx VIP
- 《园林景观手绘技法表现》课件——项目5园林景观立面图表现技法.pptx VIP
- 金融市场与金融机构(原书第9版)题库chapter 1.doc VIP
- 售后服务承诺与保证措施方案.docx VIP
- 2025年国家开放大学《信息安全基础》期末考试备考试题及答案解析.docx VIP
- 在线网课学习课堂《羽毛球运动知识大讲堂》单元测试考核答案.docx VIP
- 离心泵控制系统计算机仿真实验报告.doc VIP
- 售后服务保证措施.docx VIP
- 2025年安全教育培训考试题库(真题模拟版)职业健康与环境保护试题(附答案).docx VIP
- 大学计算机基础题库大学计算机基础题库精选.doc VIP
原创力文档


文档评论(0)