- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年大数据与人工智能课程考试试题及答案
一、单项选择题(每题2分,共20分)
1.以下关于大数据存储技术HDFS的描述中,错误的是()。
A.HDFS默认块大小为128MB,可通过参数调整
B.数据副本数默认3个,存储策略支持机架感知
C.NameNode负责存储元数据,采用主从架构
D.HDFS适合存储小文件,可通过CombineFileInputFormat优化
2.关于Spark的RDD(弹性分布式数据集),以下说法正确的是()。
A.RDD是不可变的,转换操作(Transformation)会立即触发计算
B.持久化(Persist)操作默认存储级别为MEMORY_AND_DISK
C.窄依赖(NarrowDependency)指父RDD的一个分区只被一个子RDD分区使用
D.SparkSQL的DataFrame比RDD更高效,因为其不保留数据类型信息
3.在机器学习中,以下损失函数与任务类型匹配错误的是()。
A.均方误差(MSE)—回归任务
B.交叉熵损失(CrossEntropy)—二分类任务
C.铰链损失(HingeLoss)—支持向量机(SVM)
D.Dice损失—目标检测任务
4.关于深度学习中的激活函数,以下描述错误的是()。
A.Sigmoid函数易导致梯度消失,适合二分类输出层
B.ReLU(修正线性单元)在x0时梯度为1,缓解梯度消失
C.LeakyReLU通过引入小负斜率解决ReLU的“神经元死亡”问题
D.Softmax函数通常用于多分类任务的输入层
5.自然语言处理(NLP)中,Word2Vec的Skipgram模型核心是()。
A.用中心词预测上下文词
B.用上下文词预测中心词
C.用句子预测下一个词
D.用句子对预测是否相关
6.以下不属于数据挖掘关联规则分析常用指标的是()。
A.支持度(Support)
B.置信度(Confidence)
C.提升度(Lift)
D.熵(Entropy)
7.在卷积神经网络(CNN)中,3×3卷积核的感受野(ReceptiveField)相对于1×1卷积核的优势是()。
A.减少计算量
B.捕获局部空间特征
C.增加模型深度
D.避免过拟合
8.关于梯度下降优化算法,以下说法正确的是()。
A.随机梯度下降(SGD)每次使用全部样本计算梯度
B.Adam算法结合了动量(Momentum)和自适应学习率
C.批量梯度下降(BatchGD)收敛速度最快但计算成本高
D.RMSprop仅通过动量项加速收敛
9.以下属于无监督学习任务的是()。
A.垃圾邮件分类(标签已知)
B.客户分群(无标签)
C.房价预测(连续值输出)
D.图像识别(标签已知)
10.大数据伦理中,“数据匿名化”的主要挑战是()。
A.计算成本过高
B.难以完全消除重识别风险
C.存储效率降低
D.与数据可用性矛盾
二、填空题(每题2分,共20分)
1.大数据处理框架Hadoop的核心组件包括HDFS(分布式文件系统)和________(分布式计算框架)。
2.Spark中,________操作(如count、collect)会触发Job执行,属于行动操作(Action)。
3.机器学习中,将类别型特征转换为数值型的常用方法是________(如将“红/蓝”转换为[1,0]/[0,1])。
4.深度学习中,LSTM(长短期记忆网络)通过________(输入门、遗忘门、输出门)控制信息传递。
5.Transformer模型的核心机制是________,其计算公式为Attention(Q,K,V)=softmax(QK?/√d_k)V。
6.数据清洗中,处理缺失值的常用方法包括删除记录、________(如用均值填充)和模型预测。
7.聚类算法DBSCAN的两个关键参数是________(邻域半径)和MinPts(邻域内最小样本数)。
8.强化学习中,智能体(Agent)通过与环境交互,最大化长期________(Reward)来学习策略。
9.图像分类任务中,CNN的________层(如全连接层)负责将特征映射转换为类别概率。
10.大数据安全的“三要素”是机密性、完整性和________(如防止数据被非法访问)。
三、简答题(每题8分,共40分)
1.简述HadoopMa
您可能关注的文档
最近下载
- 幼儿游戏与指导:角色游戏.docx VIP
- 词的发展简史.ppt VIP
- (高清版)DB62∕T 4690-2023 超高性能混凝土(UHPC)应用技术规范.pdf VIP
- (7页PPT)日日清消泡泡课件1.pptx VIP
- 麻将Ai设计思路(go语言实现).pdf VIP
- 生猪肉品品质检验人员考试选择题练习题及答案.docx VIP
- DB37T 4874—2025超高性能混凝土应用技术规范.pdf VIP
- 2024年江苏省无锡市普通高中数学高三上期末学业水平测试模拟试题含解析.doc VIP
- 2026年日历 12个月单独成页 横向排版 周一开始 带周数 法定节假日调休安排 .docx VIP
- 人教版初一数学七年级上册 一元一次方程解决火车过桥问题 名师获奖PPT教学课件.pptx VIP
原创力文档


文档评论(0)