“弈衡”通用大模型评测体系白皮书.pdf

“弈衡”通用大模型评测体系白皮书.pdf

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1 1.1 大模型发展现状2 1.2 评测需求3 1.3 评测问题与挑战4 2.1 主要评测方式5 2.2 典型评测维度5 2.3 常见评测指标6 4.1 整体框架8 4.2 评测场景9 4.3 评测要素11 4.4 评测维度16 人工智能大模型 (以下简称大模型)是实现生成式人工智能服务 (AIGC)的重要技术, ChatGPT上线两个月活跃用户 (MAU)突破 1亿,激发了大模型技术的爆发式发展,全球 科技公司开启大模型 “科技竞赛”。国外科技巨头微软、谷歌、META等,加快大模型研发, 并迅速应用到搜索、办公、音乐、视频等领域。我国头部企业积极开展自主可控的大模型研 发,百度、腾讯、华为、阿里、中科院自动化所、智谱AI、科大讯飞等公司的大模型也相继 推向市场。各家公司也加快大模型的迭代升级速度,OpenAI、谷歌、百度已经在短短几个 月内多次升级大模型版本,能力提升明显,大模型行业竞争激烈。 与此同时,随着大模型评测需求逐渐增加,相关研究也进一步深入。大模型相比传统模 型,泛化能力更强、灵活性更高、适应性更广,多任务、多场景,评测维度、评测指标和数 据集更复杂,面向大模型的评估方法、评测基准、测试集成为新的研究课题。业界头部公司、 主流科研机构和重点高校等权威组织,如OpenAI、微软、斯坦福大学、信通院,在评测框 架、评测指标、数据构建方法等方面发表了一些论文和研究报告,从准确性、鲁棒性、毒害 性、公平性等评测维度对相关大模型进行了评测,为用户和行业充分掌握大模型能力发挥了 积极作用。 目前业界多家机构发布了大模型的评测榜单,但是评测维度及侧重点各有不同。从推动 AI大模型成熟应用、促进生态繁荣、指引产业优化方向的角度,有必要从用户视角,构建一 套客观全面、公平公正的大模型评测体系。 中国移动技术能力评测中心作为中国移动的专业评测机构,也在关注和跟进大模型评测 技术发展。自2019 年起陆续开展了专业公司 31+N考核对标评测、技术中台能力准入等工 作,涵盖人工智能、互联网、物联网、大数据、大视频等 20 余个领域 1000 余项产品和能 力,积累了丰富的产品技术能力评测经验和数据。基于前期积累,对业界各类大模型评测技 术进行了充分调研和评测验证,构建了 “弈衡”通用大模型 “2-4-6”评测体系,并基于该 体系对已发布的大模型进行了广泛的评测。 随着大模型技术的不断发展, “弈衡”通用大模型评测体系也将持续迭代完善,希望通 过发布 《“弈衡”通用大模型评测体系白皮书》,与产业界相关企业和研究机构一道,加强 交流合作,逐步完善测试指标、测试方法、测试数据、测试自动工具,共同建立评测产业标 准化生态,为业界大模型评测提供参考依据,促进大模型技术的产业成熟和应用落地。 1 1.1 大模型发展现状 随着大模型技术的快速发展,其巨大的参数量、计算量以及模型复杂度,在解决复杂任 务方面具有很大的优势,主要体现在强大的理解和生成能力、高度的泛化能力、优秀的可迁 移学习特性及端到端训练优势。大模型技术受到各类行业的广泛关注,通过将大模型与实际 业务相结合,可为用户提供更加个性化、更符合用户需求的服务。大模型在多个领域的应用 示例如下: 行业 领域 应用 通用 搜索领域 用于实现更智能、更准确的信息检索和推荐。 能力 语音识别与合成领域 识别并合成语音,实现更智能、更自然的语音助手。 内容创作与审核领域 用于自动撰写文章、新闻、绘画、音乐等任务。 教育科技领域 为教育领域提供智能化支持。 金融科技领

文档评论(0)

文档智库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档