- 3
- 0
- 约3.72千字
- 约 7页
- 2026-02-28 发布于河南
- 举报
ICS33.050CCSM30
团体标准
T/TAF327—2026
面向智能手机的端侧大语言模型技术要求
Technicalrequirementsforon-devicelargelanguagemodelforsmartphones
2026-02-09发布2026-02-09实施
电信终端产业协会发布
T/TAF327—2026
I
目次
前言 II
引言 III
1范围 1
2规范性引用文件 1
3术语和定义 1
4缩略语 1
5概述 1
5.1前置条件 1
5.2技术要求指标 2
6模型性能 2
6.1加载时延 2
6.2推理速度-首词响应 2
6.3出词速度 3
6.4内存占用 3
6.5增量功耗 4
T/TAF327—2026
1
面向智能手机的端侧大语言模型技术要求
1范围
本文件规定了面向智能手机的端侧大语言模型技术要求。
本文件适用于指导模型开发商、第三方测评机构对端侧大语言模型进行模型能力进行测试评估等工作。
2规范性引用文件
本文件无规范性引用文件。
3术语和定义
下列术语和定义适用于本文件。
3.1
端侧大语言模型on-devicelargelanguagemodel
部署在端侧的大语言模型,一种规模庞大、基于大量数据训练得到参数众多的模型,主要用于处理文本相关任务,如文本生成、分类、翻译等,通过对大量文本数据进行学习来提升在相应文本任务中的性能且具备一定泛化性的深度学习模型。
4缩略语
下列缩略语适用于本文件:
GB:吉字节(Gigabyte)
INT:整数(Integer)
NPU:神经网络处理器(NeuralNetworkProcessingUnit)
5概述
5.1前置条件
5.1.1端侧大语言模型部署
本文件不规定端侧大语言模型部署方式和推理框架,智能手机内置大语言模型本文件不考虑。
5.1.2端侧大语言模型体积
大语言模型体积指大语言模型部署在端侧时的空间占用。
计算方法:记录模型文件在端侧所占用的存储空间大小,单位GB。
2
T/TAF327—2026
表1所示为模型参数量在1B及以下、1B-3B、3B及以上的模型INT4与INT8量化下,模型文件体积不宜超过的大小。
表1大语言模型体积
量化方式
模型规模
1B及以下
1B-3B
3B及以上
INT4量化
0.5GB
1.5G
≤RAM*80%大小
INT8量化
1GB
3GB
≤RAM*80%大小
5.2技术要求指标
技术要求指标请见表2。
表2技术要求指标
一级指标
二级指标
三级指标
模型性能
加载时延
加载时延
推理速度
首词响应时延
出词速度
内存占用
内存峰值、平均内存占用
增量功耗
增量功耗
6模型性能
6.1加载时延
模型加载时延指把大语言模型文件从存储设备加载到内存中所需的时间。
计算方法:记录初始化开始的时间戳t?和初始化结束时的时间戳t?,两者之差即为模型加载时间t,
单位s,计算公式:
t=t?-t?………(1)
下表3展示了参数量在1B及以下、1B-3B、以及3B及以上的模型,在INT4和INT8量化条件下,端侧加载延时的建议上限。所有数据均为模型在端侧加载20次后的平均耗时,指标要求请见表3。
表3加载时延要求
量化方式
模型规模
1B及以下
1B-3B
3B及以上
INT8量化
4s
6s
10s
INT4量化
2s
4s
8s
6.2推理速度-首词响应
T/TAF327—2026
3
首词响应时延是指用户感受到大语言模型推理服务的响应时间,即从用户发送样本数据到大语言模型生成并返回第一个字符所需的响应时间。
计算方法:记录将文本输入到大语言模型的时间戳和大语言模型返回第一个字符的时间戳,两者之差即为首词响应时延,单位s。
…………(2)
本文件的测试样本token长度分别为128、1024和4096。针对参数量在1B及以下、1B–3B、以及3B及以上的模型,规定在INT4和INT8量化条件下,经过20次测试所得的平均首词响应时延不宜高于表4所列上限。
表4首词响应要求
模型规模
量化方式
被测设备(内置NPU)
128tokens
1024tokens
4096tokens
INT8
1.5s
2.0s
原创力文档

文档评论(0)