以用户为中心的地理体验:一个由大语言模 型驱动的框架,用于增强规划、导航和动态适应-计算机科学-大语言模型-地理空间信息检索.pdf

以用户为中心的地理体验:一个由大语言模 型驱动的框架,用于增强规划、导航和动态适应-计算机科学-大语言模型-地理空间信息检索.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

开发和维护一个开源的AI评估仓库

:挑战与见解

111

AlexandraAbbasCeliaWaggonerJustinOlive

Abstract_(UKAISecurityInstitute,2024)的大语

言模型评估存储库,由英国AISI、ArcadiaImpact和

AI评估已成为衡量大型语言模型能力和安

VectorInstitute合作创建。该仓库包含一系列多样

全性的关键工具。本文介绍了维护开源仓

化的(超过70种)评估,包括对科学知识的评估如

库_八个月期间获得的实际

GPQA(Reinetal.,2023)、网络攻击能力的评估如

见解,该仓库包含70多个社区贡献的AI

Cybench(Zhangetal.,2024)以及防护措施稳健性

本评估。我们识别了实施和维护AI评估的的评估如AgentHarm(Andriushchenkoetal.,2024)。

译关键挑战,并开发了解决方案:(1)一个

中结构化的团队管理框架以扩大社区贡献规AI评估长期以来一直存在传统软件工程实践难以解

模,(2)用于最优重采样和跨模型比较并决的挑战,而随着评估变得越来越频繁、复杂和重

1

v量化不确定性的统计方法,以及(3)系统要,这些挑战也在加剧。通过我们对_

3化质量控制流程以确保可重复性。我们的的经验,我们遇到了技术性、方法论性和社区驱动

9

8分析表明,AI评估需要专门的基础设施、的障碍,这些问题可以为更广泛的开源AI评估社区

6

0统计严谨性和社区协调,这超出了传统软提供宝贵的见解。本文回顾了这些挑战,提出了一

.

7件开发实践。些问题的解决方案,并将其他问题识别为需要进一

0步研究和社区协调的开放性问题。

5

2

:

v1.介绍2.仓库概述

i

x

r人工智能评估已成为衡量大型语言模型(LLMs)能_是一个协作空间,评估社区可以在此

a

力和安全性的宝贵方法。英国人工智能安全研究所贡献高质量的标准化评估,打破组织之间的传统壁

(UKAISI)将人工智能评估识别为推进我们对模型垒,并促进严谨评估的更广泛应用。

能力理解以及预防灾难性人工智能风险(2025)的关

该仓库服务于三个主要受众群体:从事扩展定律和

键工具,认识到其在开发安全和有益的人工智能系

评估科学研究的研究人员、处理模型性能数据以供

统中的基本重要性。

决策者使用的分析师以及运行内部评估并与行业基

本文介绍了自其发布8个月以来维护_准进行比较的技术

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档