OmniBench-RAG:用于检索增强生成工具的多领 域评估平台.pdfVIP

OmniBench-RAG:用于检索增强生成工具的多领 域评估平台.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

OmniBench-RAG:用于检索增强生成工具的多领

域评估平台

JiaxuanLiang,ShideZhou,andKailongWang†

HuazhongUniversityofScienceandTechnology

{liangjx,shidez,wangkl}@

摘要—虽然检索增强生成(RAG)现在被广泛采用以提升当前的RAG评估方法存在根本性的限制,阻碍了可

大语言模型,但以可重现和可解释的方式评估其真实性能优势仍重复和全面的评估:首先,它们缺乏自动多领域评估能力,

然是一个重大障碍。现有方法往往不足:它们缺乏领域覆盖面,并依赖于非确定性组件。现有的基准测试通常需要为每个

使用粗略指标而忽略了子文档精度,并且无法捕捉到计算上的权

知识领域进行手动配置,并且无法在金融、医疗保健或文

本衡取舍。最关键的是,它们没有提供标准化框架来比较不同模型化等不同领域提供统一的评估,这使得跨领域的性能分析

译和领域的RAG有效性。既劳动密集又不一致。此外,领先框架中的关键指标(例

我们介绍了OmniBenchRAG,一个多领域评估RAG

中系统的新型自动化平台。该平台量化了在准确性和效率维度上如Ragas中基于LLM的评分[8])由于依赖于评估循环中

1的性能提升,涵盖了包括文化、地理和健康在内的九个知识领的大型语言模型而无意中引入了随机性,从而削弱了结果

v域。我们引入了两个标准化指标:改进(准确性增益)和转换

0(前RAG模型与后RAG模型之间的效率差异),使跨模型和的可重复性。其次,他们采用静态数据集和粗粒度指标。

5任务的可重复比较成为可能。该平台具有动态测试生成、模块化大多数框架依赖于固定基准和文档级别的检索指标(例如

6

5评估管道和自动知识库构建功能。我们的评估显示,RAG的MRR@k[9]),忽略了准确评估模型是否能精确提取特定事

0.有效性存在显著变异,从文化领域的显著增益到数学领域中的实所需的子文档精度。它们也无法生成动态测试用例来探

8下降,强调了系统性、领域意识评估的关键重要性。演示视频测复杂的推理模式。第三,它们未能捕捉到RAG系统内

0可以在以下位置获取:/watch?

5在的计算权衡。没有对资源利用率和效率指标进行自动化

2v=BZx83QFcTCI。代码和数据集:/分析,从业者无法在部署RAG到生产环境时做出关于成

:Garnett-Liang/Omnibench-RAG。

v本效益权衡的明智决策。

i

x

rI.介绍我们的工作通过全基准-RAG,一个自动评估平台,解

a

决了这些限制,该平台协调了跨多个维度的RAG系统端

检索增强生成(RAG)是提升大型语言模型(LLMs)到端评估。该平台引入了几项关键技术革新,将RAG评估

的关键技术[1],[2]。通过将模型响应植根于外部、可验证的从手动、临时测试转变为系统化、可重复分析。核心而言,

知识中,RAG承诺减少幻觉问题[3],提高事实准确性[4],OmniBench-RAG采用了一个自动化并行评估架构,执行

并提供最新信息[5]。然而,RAG的真实效果远非统一。近普通模型和增强型RAG模型的并列比较,捕捉包括延迟、

期研究[6],[7]表明存在显著差异:虽然RAG可以将较小GPU利用率和内存消耗在内的细粒度性能指标,无需人

模型如Llama-3.2-3B-Instruct的准确性提升高达38.12%,工干预。这种双轨系统确保了任何观察到的性能差异可以

但其对具有扩展上下文窗口优势的

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档