以用户为中心的地理体验：一个由大语言模型驱动的框架，用于增强规划、导航和动态适应-计算机科学-大语言模型-地理空间信息检索.pdf

下载文档

1
0
约1.71万字
约 7页
2025-07-26 发布于北京
举报
版权申诉
保障服务

以用户为中心的地理体验：一个由大语言模型驱动的框架，用于增强规划、导航和动态适应-计算机科学-大语言模型-地理空间信息检索.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

开发和维护一个开源的AI评估仓库

：挑战与见解

111

AlexandraAbbasCeliaWaggonerJustinOlive

Abstract_(UKAISecurityInstitute,2024)的大语

言模型评估存储库，由英国AISI、ArcadiaImpact和

AI评估已成为衡量大型语言模型能力和安

VectorInstitute合作创建。该仓库包含一系列多样

全性的关键工具。本文介绍了维护开源仓

化的（超过70种）评估，包括对科学知识的评估如

库_八个月期间获得的实际

GPQA(Reinetal.,2023)、网络攻击能力的评估如

见解，该仓库包含70多个社区贡献的AI

Cybench(Zhangetal.,2024)以及防护措施稳健性

本评估。我们识别了实施和维护AI评估的的评估如AgentHarm(Andriushchenkoetal.,2024)。

译关键挑战，并开发了解决方案：（1）一个

中结构化的团队管理框架以扩大社区贡献规AI评估长期以来一直存在传统软件工程实践难以解

模，（2）用于最优重采样和跨模型比较并决的挑战，而随着评估变得越来越频繁、复杂和重

v量化不确定性的统计方法，以及（3）系统要，这些挑战也在加剧。通过我们对_

3化质量控制流程以确保可重复性。我们的的经验，我们遇到了技术性、方法论性和社区驱动

8分析表明，AI评估需要专门的基础设施、的障碍，这些问题可以为更广泛的开源AI评估社区

0统计严谨性和社区协调，这超出了传统软提供宝贵的见解。本文回顾了这些挑战，提出了一

7件开发实践。些问题的解决方案，并将其他问题识别为需要进一

0步研究和社区协调的开放性问题。

v1.介绍2.仓库概述

r人工智能评估已成为衡量大型语言模型（LLMs）能_是一个协作空间，评估社区可以在此

力和安全性的宝贵方法。英国人工智能安全研究所贡献高质量的标准化评估，打破组织之间的传统壁

（UKAISI）将人工智能评估识别为推进我们对模型垒，并促进严谨评估的更广泛应用。

能力理解以及预防灾难性人工智能风险(2025)的关

该仓库服务于三个主要受众群体：从事扩展定律和

键工具，认识到其在开发安全和有益的人工智能系

评估科学研究的研究人员、处理模型性能数据以供

统中的基本重要性。

决策者使用的分析师以及运行内部评估并与行业基

本文介绍了自其发布8个月以来维护_准进行比较的技术

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

以用户为中心的地理体验：一个由大语言模型驱动的框架，用于增强规划、导航和动态适应-计算机科学-大语言模型-地理空间信息检索.pdf