CodeArts Snap研发大模型评估探索.pdf

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

CodeArtsSnap研发大模型评估探索

张琦|华为技术有限公司大模型技术专家

目01大模型评测现状以及面临的挑战

C

O02华为研发大模型评估工程

N

T

E

N

录T03未来的探索以及思考

S

百模大战开启

如何衡量一个模型的好坏?

模型能力越来越强,功能与来越多

智能辅助智能协同智能自主

AI辅助代码开发AIGC应用架构初步形成人监督AI开发

≈10%

需求设运维运

计营

开发验

100%≈80%≈20%发布部≈0%

CICD

如何衡量一个模型的好坏?

CodeArtsSnap的前世今生

Pangu-CoderCodeArtsSnapPangu-Coder2CodeArtsSnap

代码生成能力亿级/十亿智能开发助手首次亮相HC大推出百亿级参数大模型和千智能开发助手亮相HDC大会,

级参数模型业界SOTA,会,开启邀测亿级参数大模型现场演示端到端应用开发

多项重要指标国际领先

22年7月22年11月23年7月23年7月

CodeArtsSnap8大能力

智能代码UT

问答解释生成

代码代码

注释生成

代码代码代码

调试翻译检查

大模型评测存在的问题

评测标准评测标准落后,模型能力强不代表用户体验好,评测标准需要贴近用户体验.

评测数据集研发场景评测数据集的场景覆盖度不足,比如运维、设计、需求等方向.

垂直领域评测数据集覆盖的产业以及垂直领域也不完整.

文档评论(0)

优选文档 + 关注
实名认证
内容提供者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档