从盲目调优到数据驱动-大规模Agent的评估工程实践.pptx

从盲目调优到数据驱动-大规模Agent的评估工程实践.pptx

从盲目调优到数据驱动

大规模Agent的评估工程实践

章平|亚马逊云科技

目录

Agent

Agent

04

01

02

03

05

06

从盲目调优到数据驱动

真实案例:旅游搜索Agent的7周质量隐形降

Agent工具

问题:用户询问:从纽约到巴塞罗那7天行程,包括机票,$3000是否足够?

期望正确行为

调用”计算旅行预算”工具,提供专业建议

实际回答:

从网页搜索通用的巴塞罗那旅行信息

旅游平台Agent

旅游搜索业务:7周隐形降级

Agent评估的挑战

工具激活成功率

98.5%稳定

API延迟

无异常

工具选择准确性

92%→67%大幅

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档