- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
PromptSuite:一种任务无关的多提示生成框架
EliyaHabba*NoamDahanGiliLiorGabrielStanovsky
TheHebrewUniversityofJerusalem
eliya.habba$mail.huji.ac.il
摘要务(ResendizandKlinger,2024),引发了人们对
使用单一提示进行评估的有效性的担忧。
使用单个提示评估大语言模型已被证明是
本不可靠的,微小的变化会导致性能出现显多提示评估目前颇具挑战性,因为没有标
译著差异。然而,生成更稳健的多提示评估准的方法来扩展现有的基准测试,这些基准测
所需的各种提示变化具有挑战性,这限制试主要是使用单个提示编译的。显然,尽管存
中了其在实践中的应用。为了解决这一问题,在主要限制,单提示评估在许多自然语言处理
1我们引入了PromptSuite,这是一个能够自任务中仍然很普遍(Guetal.,2024a,b;Lioretal.,
v
3动生成各种提示的框架。PromptSuite是灵2025)。
1活的——开箱即可用于广泛的任务和基准
9为了解决阻碍自然语言处理中有效评估的
4测试。它遵循模块化提示设计,允许对每个
1.组件进行可控扰动,并且具有可扩展性,支重大挑战,我们提出了框架PromptSuite,它生
7持添加新的组件和扰动类型。通过一系列成多个提示,并利用大语言模型以及基于规则
0
5案例研究,我们展示了PromptSuite提供了的启发式方法来生成沿影响模型性能维度的
2
:有意义的变化以支持强大的评估实践。其变化。
v1
i可以通过一个PythonAPI,和用户友好的PromptSuite建立在三个核心原则上,这些
x2
r网页界面获得。原则在第2节中进行了介绍。首先,PromptSuite
a
1介绍是灵活,设计为可以在广泛的基准测试中直接
使用。第二,PromptSuite遵循一个模块化设计,
近期的研究表明,大语言模型对任务表述
将提示分解为四个组成部分:指令、提示格式、
中的细微、保持意义不变的变化非常敏感。从添
演示和实例内容,并且PromptSuite能够针对
加空白字符到指令的改写,这些微小的变化会每个部分进行有针对性的扰动,使其易于评估
导致模型性能出现显著差异(Sclaretal.,2023;
它们的影响并适应新任务。最后,PromptSuite
Mizrahietal.,2024)。是可扩展的支持未来的
您可能关注的文档
- 设计而非为了设计的机器人:法医精神病学中促进互动的共同设计框架-计算机科学-人工智能-法医心理健康护理.pdf
- 数字孪生和扩展现实用于电动车辆电池拆卸的远程操作-计算机科学-电动汽车电池-数字孪生.pdf
- 拜占庭鲁棒的 LLM 代理去中心化协调-计算机科学-大语言模型-区块链-多智能体.pdf
- 特定应用组件感知的深度神经网络结构剪枝通过软系数优化-计算机科学-深度神经网络-机器学习.pdf
- 剧本杀行业2025年西北区域市场差异化品牌推广策略分析.docx
- 剧本杀行业人才培训体系构建与行业人才需求对接报告.docx
- 剧本杀行业人才培训市场前景预测与分析报告.docx
- 剧本杀行业人才培训市场潜力与竞争格局分析.docx
- 剧本杀行业人才培训行业报告:2025年创新人才培养路径解析.docx
- 剧本杀行业内容监管技术行业政策影响与应对策略报告.docx
- 半导体材料性能提升技术突破与应用案例分析报告.docx
- 半导体设备国产化政策支持下的关键技术突破与应用前景报告.docx
- 剧本杀市场2025年区域扩张策略研究报告.docx
- 剧本杀行业2025人才培训体系构建中的市场需求与供给分析.docx
- 剧本杀行业2025年人才培训行业人才培养模式创新与探索.docx
- 剧本杀行业2025年内容创作人才需求报告.docx
- 剧本杀行业2025年区域市场区域剧本市场消费者满意度与市场竞争力研究报告.docx
- 剧本杀市场2025年区域竞争态势下的区域合作策略分析报告.docx
- 剧本杀行业2025人才培训与行业人才培养模式创新.docx
- 剧本杀行业剧本创作人才心理素质培养报告.docx
文档评论(0)