- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1
人工智能大模型 (以下简称大模型)是实现生成式人工智能服务 (AIGC)的重要技术,
ChatGPT上线两个月活跃用户 (MAU)突破 1亿,激发了大模型技术的爆发式发展,全球
科技公司开启大模型 “科技竞赛”。国外科技巨头微软、谷歌、META等,加快大模型研发,
并迅速应用到搜索、办公、音乐、视频等领域。我国头部企业积极开展自主可控的大模型研
发,百度、腾讯、华为、阿里、中科院自动化所、智谱AI、科大讯飞等公司的大模型也相继
推向市场。各家公司也加快大模型的迭代升级速度,OpenAI、谷歌、百度已经在短短几个
月内多次升级大模型版本,能力提升明显,大模型行业竞争激烈。
与此同时,随着大模型评测需求逐渐增加,相关研究也进一步深入。大模型相比传统模
型,泛化能力更强、灵活性更高、适应性更广,多任务、多场景,评测维度、评测指标和数
据集更复杂,面向大模型的评估方法、评测基准、测试集成为新的研究课题。业界头部公司、
主流科研机构和重点高校等权威组织,如OpenAI、微软、斯坦福大学、信通院,在评测框
架、评测指标、数据构建方法等方面发表了一些论文和研究报告,从准确性、鲁棒性、毒害
性、公平性等评测维度对相关大模型进行了评测,为用户和行业充分掌握大模型能力发挥了
积极作用。
目前业界多家机构发布了大模型的评测榜单,但是评测维度及侧重点各有不同。从推动
AI大模型成熟应用、促进生态繁荣、指引产业优化方向的角度,有必要从用户视角,构建一
套客观全面、公平公正的大模型评测体系。
中国移动技术能力评测中心作为中国移动的专业评测机构,也在关注和跟进大模型评测
技术发展。自2019 年起陆续开展了专业公司 31+N考核对标评测、技术中台能力准入等工
作,涵盖人工智能、互联网、物联网、大数据、大视频等 20 余个领域 1000 余项产品和能
力,积累了丰富的产品技术能力评测经验和数据。基于前期积累,对业界各类大模型评测技
术进行了充分调研和评测验证,构建了 “弈衡”通用大模型 “2-4-6”评测体系,并基于该
体系对已发布的大模型进行了广泛的评测。
随着大模型技术的不断发展, “弈衡”通用大模型评测体系也将持续迭代完善,希望通
过发布 《“弈衡”通用大模型评测体系白皮书》,与产业界相关企业和研究机构一道,加强
交流合作,逐步完善测试指标、测试方法、测试数据、测试自动工具,共同建立评测产业标
准化生态,为业界大模型评测提供参考依据,促进大模型技术的产业成熟和应用落地。
1
1.1 大模型发展现状
随着大模型技术的快速发展,其巨大的参数量、计算量以及模型复杂度,在解决复杂任
务方面具有很大的优势,主要体现在强大的理解和生成能力、高度的泛化能力、优秀的可迁
移学习特性及端到端训练优势。大模型技术受到各类行业的广泛关注,通过将大模型与实际
业务相结合,可为用户提供更加个性化、更符合用户需求的服务。大模型在多个领域的应用
示例如下:
行业 领域 应用
通用 搜索领域 用于实现更智能、更准确的信息检索和推荐。
能力 语音识别与合成领域 识别并合成语音,实现更智能、更自然的语音助手。
内容创作与审核领域 用于自动撰写文章、新闻、绘画、音乐等任务。
教育科技领域 为教育领域提供智能化支持。
金融科技领域 帮助金融机构提高决策效率和质量。
医疗健康领域 协助医生和研究人员提高工作效率,提高医疗水平。
智能制造领域 助力工厂实现智能化生产、降本增效。
软件开发领域 提高开发人员的工作效率,降低人力成本。
垂直 法律领域 用于文书的撰写、法律咨询等任务,降低法律服务成本。
行业 人力资源领域 帮助企业优化人力资源管理。
媒体与娱乐领域 为创作者提供创意灵感,提高创作效率。
您可能关注的文档
最近下载
- 《红岩》主要人物精要整理.doc VIP
- 《电阻》说课课件.ppt VIP
- 《用好人,分好钱:华为知识型员工管理之道》团队读书笔记.docx VIP
- 新生儿贫血诊疗与护理考核试题及答案.pdf VIP
- NB∕T 11418-2023 水工钢闸门和启闭机安全检测技术规程.pdf
- 2025事业单位联考A类《综合应用能力》考试测试题.docx VIP
- 《中华人民共和国法治宣传教育法》全文.ppt VIP
- 2024企业公司奔向旷野《我的阿勒泰》同款团建活动策划方案-42正式版.doc VIP
- 慢性气道疾病康复基层指南(2025年).pptx VIP
- GB_T 20221-2023 无压埋地排污、排水用硬聚氯乙烯(PVC-U)管材.doc VIP
文档评论(0)