面向生产服务的大模型评估体系探讨.pptx

面向生产服务的大模型评估体系探讨.pptx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

面向生产服务的大模型评估体系探讨

;

一、中国移动大模型布局及进展;

+200B+

多模态/跨模态大模型

视觉大模型语音大模型结构化数据大模型;

中国移动自主构建语言、视觉、语音等多种类型大模型,具备跨行业供给侧增强、高可控性、异构软硬件灵活部

署几大显著的技术特色,整体性能指标实现国内主流水平,能更好满足企业全场景全部署的大模型落地需求;

以九天基础模型为基础,联合通信、能源、航空等行业的骨干企业,共建共享九天·众擎基座大模型,加速国民经

济主体行业的智能化转型升级,促进我国战略性新兴产业发展,带动我国整体生产力提升;;

构建网络AI大模型,实现从“网络+AI”向“AI+网络”转变,降低AI赋能网络的边际成本,指数级扩大赋能成效

为网络智慧内生提供AI核心基座,助力网络与AI全面、深度融合;;

2023年世界人工智能大会上,发布了九天·海算政务大模型,已落地应用于黑龙江省数字政府项目政务智能客服、

智能搜索、数字人、公文辅助写作等应用场景中的落地验证;

面向企业级智能客服场景,基于10086服务近十亿客户的海量客服数据、业务知识和服务经验,打造九天·客服大

模型,让每个用户都拥有24小时在线的“专属管家”,极大提升客服工作效率和用户体验;

2023年中国移动合作伙伴大会上,发布了首个基于客服行业大模型的智能客服产品,实现大模型客服领域应用破

冰已在北京、广东等试点省份生产上线;;

面向生产服务需求,汇聚业界优秀的通用和专用大模型及能力,建立“多层次-多维度-多任务-多指标-多模式”的

大模型评估体系,确保汇聚的大模型安全、优质、高效,推动大模型产业规范化发展;

二、中国移动大模型评估体系;;;

整体目标:构建覆盖训练数据、模型输入和输出的审核体系

审核机制:建立审核标签体系,对数据进行变体词识别等预处理后,通过多个模型标记审核标签,给出回答建议;

打造大模型评测平台,通过分层架构设计,增强其扩展性和灵活度,实现一键注册、快速评测、智能分??的大模型

标准化评测流程;

?5大类评测指标:

准确性、鲁棒性——着重指大模型的功能、稳定性表现安全性、公平性——着重指大模型的非功能表现

高效性——着重指大模型的响应时延、并发度;;

三、九天客服大模型业务应用实践;

率先应用在10086全球最大的客服系统,驱动客服领域行业应用破冰。;

?面向10086智能客服系统生产级别上线要求,建立多维度、多层次的客服大模型评测体系,确保评测的完备性和合理性

?针对真实客服场景中面临的安全可信问题,提出溯源信息场和一致性校验的方案,贯穿客服大模型的全流程,实现客服回复内容的可信响应,保证服务的安全可控;;

流程;

简单入口、现有系统重用和系统伴随,提供润物细无声的服务。;

从客户-机器人、客户-客服的单点的沟通,升级为客户+大模型+客服三方协同交互。

文档评论(0)

139****5242 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档