- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ICS35.240
CCSL70
CAPT
团体标准
T/CAPT011—2024
台
平
息
新闻行业大规模预训练模型语言模型
信
评测要求
准
NewsIndustry—Large-scalepre-trainedmodels—Requirementsforlanguagemodel
evaluation
标
体
团
国
全
11218
2024-2-18发布2024--实施
中国新闻技术工作者联合会 发布
T/CAPT011—2024
目次
前言II
台
引言III
1范围1
2规范性引用文件1
平
3术语和定义1
4评测指标1
4.1概述2
4.2性能评测指标2
息
4.3内容评测指标4
5评测方法5
5.1评测流程5
信
5.2评测数据集5
5.3评测结果获取工具5
5.4自动化评测方法5
5.5人工评测方法6
准
6内容评测指标权重6
附录A(规范性)评测指标档次界定8
附录B(资料性)自动化评测方法示例10
标
B.1自动化评测标准格式示例10
B.2指令跟随评测示例10
附录C(规范性)单项评测的指标权重12
体
C.1媒体文本创作类单项评测指标权重12
C.2媒体文本编辑类单项评测指标权重15
C.3媒体文本理解类单项评测指标权重17
C.4媒体数据增强类单项评测指标权重18
团
参考文献19
国
全
I
您可能关注的文档
- T_CASMES 377—2024(突发地质灾害应急监测技术规程).pdf
- T_CASMES 379—2024(公共停车场(库)运营管理服务规范).pdf
- T_CASMES 383—2024(面向离散制造行业的数字生产力评估体系及方法).pdf
- T_CASMES 386—2024(生物数字切片应用系统).pdf
- T_CASMES 389—2024(基于区块链的碳智能管理平台技术要求).pdf
- T_CAMDI 128—2024(全自动荧光PCR即时检测分析系统及评价).pdf
- T_CAMDI 129—2024(医疗器械用环烯烃共聚物(COC)专用料).pdf
- T_CAMDI 130—2024(口罩细菌过滤效率测试质量控制要求).pdf
- T_CAMDI 131—2024(一次性使用血样转注装置).pdf
- T_CAMDI 132—2024(一次性使用气胸针).pdf
- 人教版英语5年级下册全册教学课件.pptx
- 部编人教版2年级上册语文全册教学课件含单元及专项复习.pptx
- 人教版8年级上册英语全册教学课件(2021年8月修订).pptx
- 教科版(2017版)6年级上册科学全册课件+课时练.pptx
- 人教版PEP版6年级英语下册全册教学课件(2022年12月修订).pptx
- 部编人教版2年级下册语文全册课件(2021年春修订).pptx
- 人教版数学6年级下册全册教学课件(2023年教材).pptx
- 湘少版5年级下册英语全册教学课件(2021年春修订).pptx
- 人教PEP4年级下册英语全册教学课件 [2}.pptx
- 人教版6年级上册英语全册教学课件.pptx
文档评论(0)