- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
AI大模型应用测试工程师岗位招聘考试试卷及答案
一、填空题(每题1分,共10分)
1.大模型的核心架构是________。
2.大模型输出与事实不符的现象称为________。
3.Prompt工程中提供少量示例的方法是________。
4.验证大模型输出正确性属于________测试。
5.多任务理解评估数据集是________。
6.大模型安全测试常见场景含Prompt注入和________。
7.参数高效微调方法是________。
8.大模型性能指标含响应延迟和________。
9.Llama2的开发者是________。
10.测试用例需覆盖的边界情况含极端prompt和________。
二、单项选择题(每题2分,共20分)
1.大模型幻觉表现是?
A.输出事实一致B.输出虚假数据C.格式正确D.响应快
2.Transformer核心是?
A.RNNB.自注意力C.CNND.决策树
3.Prompt注入属于?
A.功能B.性能C.安全D.兼容
4.非性能指标是?
A.准确率B.延迟C.吞吐量D.代码行数
5.LoRA特点是?
A.更新全参数B.仅更新少量C.无需数据D.仅开源用
6.对话能力评估数据集是?
A.SQuADB.GLUEC.MMLUD.无
7.开源大模型是?
A.GPT-4B.Llama2C.Claude3D.Gemini
8.Prompt设计不包括?
A.明确B.简洁C.模糊D.针对
9.符合行业规范属于?
A.功能B.合规C.性能D.安全
10.非部署方式是?
A.本地B.APIC.容器D.手动
三、多项选择题(每题2分,共20分)
1.大模型测试类型含?
A.功能B.性能C.安全D.兼容
2.Prompt技巧含?
A.Zero-shotB.Few-shotC.CoTD.随机
3.幻觉表现含?
A.虚假事实B.无依据结论C.混淆概念D.格式错
4.性能指标含?
A.准确率B.召回率C.延迟D.吞吐量
5.安全场景含?
A.Prompt注入B.有害输出C.数据泄露D.超时
6.开源部署含?
A.本地B.APIC.容器D.云端托管
7.功能测试重点含?
A.正确性B.一致性C.可解释性D.速度
8.微调优势含?
A.适配任务B.降成本C.减数据D.提泛化
9.用例设计考虑?
A.Prompt多样B.场景覆盖C.边界D.成本
10.评估数据集含?
A.MMLUB.SQuADC.GLUED.ImageNet
四、判断题(每题2分,共20分)
1.大模型测试不关注性能。()
2.Transformer是主流架构。()
3.Prompt注入不影响输出。()
4.LoRA更新全参数。()
5.幻觉是输出与事实不符。()
6.SQuAD评估阅读理解。()
7.安全仅查有害输出。()
8.Llama2可商用。()
9.用例不覆盖极端prompt。()
10.CoT是有效Prompt方法。()
五、简答题(每题5分,共20分)
1.简述大模型幻觉测试重点及方法。
2.说明Prompt注入测试场景及防范思路。
3.简述大模型性能测试指标及要点。
4.说明LoRA在测试中的应用场景。
六、讨论题(每题5分,共10分)
1.如何设计医疗领域大模型功能测试用例?
2.平衡大模型安全过滤与用户体验的方法?
---
答案部分
一、填空题
1.Transformer
2.幻觉(Hallucination)
3.Few-shot(少样本)
4.功能
5.MMLU
6.有害输出(或数据泄露)
7.LoRA
8.准确率(或吞吐量)
9.Meta(元)
10.极端长度输出
二、单项选择题
1.B2.B3.C4.D5.B6.A7.B8.C9.B10.D
三、多项选择题
1.ABCD2.ABC3.ABC4.ABCD5.ABC6.ABCD7.ABC8.ABCD9.ABCD10.ABC
四、判断题
1.×2.√3.×4.×5.√6.√7.×8.√9.×10.√
五、简答题
1.重点:输出事实一致性、无虚假信息、逻辑自洽。方法:①对比权威事实库;②设计“事实核查”prompt;③覆盖多领域场景;④统计幻觉发生率。
2.场景:指令混淆、角色hijack、格式突破。防范:①语义+关键词检测;②输出过滤;③微调加安全约束;④限制响应权限。
3.指标:延迟、吞吐量、准确率/召回率、资源占用。要点:模拟真实流量、覆盖不同prompt长度、对比部署环境、长期稳定性测试。
4.场景:特定任务适配测试、低成本验证微调效果、快速迭代、资源受限场景(本地部署)。
六、讨论题
1.设计思路:①场景覆盖(诊断、用药、咨询);②prompt多样(模糊/清晰症状、不同病史);③事实核查(对比医学指南);④边界测试(极端症状、禁忌用药);⑤合规测试(隐私规范)。每场景含“正
您可能关注的文档
最近下载
- 妊娠期高血压疾病诊治指南_【57页】_B61.pptx VIP
- 2025年(新题型)初中道德与法治(统编版)九年级上册文明与家园专项练习综合测试卷(含答案)【可编辑】.docx VIP
- 仪器分析试题及答案.docx VIP
- 教师资格认定申请表(补).doc VIP
- 2025年人教版小学五年级数学(上册)第六单元测试题(附参考答案).pdf VIP
- 2022-2023学年北京市海淀区中国人民大学某中学七年级上学期数学期末试卷含详解.pdf VIP
- 行政部年度工作总结及计划.pptx VIP
- 屋顶分布式光伏场站设备运维规程.pdf VIP
- 非煤矿山基础知识.pptx VIP
- 围手术期舒适度量表的汉化及信效度评价.docx VIP
原创力文档


文档评论(0)