“弈衡”通用大模型评测体系白皮书.pdf

下载文档

2
0
约2.13万字
约 24页
2023-07-30 发布于山东
举报
版权申诉
保障服务

“弈衡”通用大模型评测体系白皮书.pdf

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1 1.1 大模型发展现状2 1.2 评测需求3 1.3 评测问题与挑战4 2.1 主要评测方式5 2.2 典型评测维度5 2.3 常见评测指标6 4.1 整体框架8 4.2 评测场景9 4.3 评测要素11 4.4 评测维度16 人工智能大模型（以下简称大模型）是实现生成式人工智能服务（AIGC）的重要技术， ChatGPT上线两个月活跃用户（MAU）突破 1亿，激发了大模型技术的爆发式发展，全球科技公司开启大模型 “科技竞赛”。国外科技巨头微软、谷歌、META等，加快大模型研发，并迅速应用到搜索、办公、音乐、视频等领域。我国头部企业积极开展自主可控的大模型研发，百度、腾讯、华为、阿里、中科院自动化所、智谱AI、科大讯飞等公司的大模型也相继推向市场。各家公司也加快大模型的迭代升级速度，OpenAI、谷歌、百度已经在短短几个月内多次升级大模型版本，能力提升明显，大模型行业竞争激烈。与此同时，随着大模型评测需求逐渐增加,相关研究也进一步深入。大模型相比传统模型，泛化能力更强、灵活性更高、适应性更广，多任务、多场景，评测维度、评测指标和数据集更复杂，面向大模型的评估方法、评测基准、测试集成为新的研究课题。业界头部公司、主流科研机构和重点高校等权威组织，如OpenAI、微软、斯坦福大学、信通院，在评测框架、评测指标、数据构建方法等方面发表了一些论文和研究报告，从准确性、鲁棒性、毒害性、公平性等评测维度对相关大模型进行了评测，为用户和行业充分掌握大模型能力发挥了积极作用。目前业界多家机构发布了大模型的评测榜单，但是评测维度及侧重点各有不同。从推动 AI大模型成熟应用、促进生态繁荣、指引产业优化方向的角度，有必要从用户视角，构建一套客观全面、公平公正的大模型评测体系。中国移动技术能力评测中心作为中国移动的专业评测机构，也在关注和跟进大模型评测技术发展。自2019 年起陆续开展了专业公司 31+N考核对标评测、技术中台能力准入等工作，涵盖人工智能、互联网、物联网、大数据、大视频等 20 余个领域 1000 余项产品和能力，积累了丰富的产品技术能力评测经验和数据。基于前期积累，对业界各类大模型评测技术进行了充分调研和评测验证，构建了 “弈衡”通用大模型 “2-4-6”评测体系，并基于该体系对已发布的大模型进行了广泛的评测。随着大模型技术的不断发展， “弈衡”通用大模型评测体系也将持续迭代完善，希望通过发布《“弈衡”通用大模型评测体系白皮书》，与产业界相关企业和研究机构一道，加强交流合作，逐步完善测试指标、测试方法、测试数据、测试自动工具，共同建立评测产业标准化生态，为业界大模型评测提供参考依据，促进大模型技术的产业成熟和应用落地。 1 1.1 大模型发展现状随着大模型技术的快速发展，其巨大的参数量、计算量以及模型复杂度，在解决复杂任务方面具有很大的优势，主要体现在强大的理解和生成能力、高度的泛化能力、优秀的可迁移学习特性及端到端训练优势。大模型技术受到各类行业的广泛关注，通过将大模型与实际业务相结合，可为用户提供更加个性化、更符合用户需求的服务。大模型在多个领域的应用示例如下：行业领域应用通用搜索领域用于实现更智能、更准确的信息检索和推荐。能力语音识别与合成领域识别并合成语音，实现更智能、更自然的语音助手。内容创作与审核领域用于自动撰写文章、新闻、绘画、音乐等任务。教育科技领域为教育领域提供智能化支持。金融科技领