网络安全技术 生成式人工智能服务安全基本要求.pdf

网络安全技术 生成式人工智能服务安全基本要求.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

网络安全技术生成式人工智能服务安全基本要求

1范围

本文件规定了生成式人工智能服务在安全方面的基本要求,包括训练数据安全、模型安全、安全措

施等,并给出了安全评估参考要点。

本文件适用于服务提供者开展安全评估,也可为相关主管部门提供参考。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T25069—2022信息安全技术术语

3术语和定义

GB/T25069—2022界定的以及下列术语和定义适用于本文件。

3.1

生成式人工智能服务generativeartificialintelligenceservice

利用生成式人工智能技术向公众提供生成文本、图片、音频、视频等内容的服务。

3.2

服务提供者serviceprovider

以交互界面、可编程接口等形式提供生成式人工智能服务的组织或个人。

3.3

训练数据trainingdata

所有直接作为模型训练输入的数据,包括预训练数据和优化训练数据。

4概述

本文件旨在帮助服务提供者明确生成式人工智能服务网络安全基线、提高服务安全水平,针对当前

生成式人工智能服务面临的网络安全、数据安全、个人信息保护等关键问题,提出覆盖服务全生命周期

的安全要求,防范化解服务过程中的应用场景安全风险、软硬件环境安全风险、生成内容安全风险以及

权益保障安全风险等。

针对生成式人工智能服务上线前的模型研发过程,本文件重点关注训练数据来源安全、训练数据内

容安全、数据标注安全,以及模型安全。针对面向公众开放后的服务提供过程,本文件重点关注在提供

服务过程中应采取的安全措施。

5训练数据安全要求

1

5.1数据来源安全

对服务提供者的要求如下。

a)采集来源管理:

1)面向特定数据来源进行采集前,应对该来源数据进行安全评估,数据内容中含违法不良信息

超过5%的,不应采集该来源数据;

2)面向特定数据来源进行采集后,应对所采集的该来源数据进行核验,含违法不良信息情况超

过5%的,不应使用该来源数据进行训练。

注:本文件关注的违法不良信息主要是指包含附录A.1到A.4中29种安全风险的信息。

b)不同来源训练数据搭配:

1)应提高训练数据来源的多样性,对每一种语言的训练数据,如中文、英文等,以及每一种类

型的训练数据,如文本、图片、音频、视频等,均应有多个训练数据来源;

2)如需使用境外来源训练数据,应与境内来源训练数据进行合理搭配。

c)训练数据来源可追溯:

1)使用开源训练数据时,应具有该数据来源的开源许可协议或相关授权文件;

注1:对于汇聚了网络地址、数据链接等能够指向或生成其他数据的情况,如果需要使用这些被指向或生成的

内容作为训练数据,应将其视同于自采训练数据。

2)使用自采训练数据时,应具有采集记录,不应采集他人已明确不可采集的数据;

注2:自采训练数据包括自行生产的数据以及从互联网采集的数据。

注3:明确不可采集的数据,例如已通过robots协议或其他限制采集的技术手段明确表明不可采集的网页数据,

或个人已拒绝授权采集的个人信息等。

3)使用商业训练数据时:

——应有具备法律效力的交易合同、合作协议等;

——交易方或合作方不能提供数据来源、质量、安全等方面的承诺以及相关证明材料时,不应

使用该训练数据;

——应对交易方或合作方所提供训练数据、承诺、材料进行审核。

4)将使用者输入信息当作训练数据时,应具有使用者授权记录。

5.2数据内容安全

对服务提供者的要求如下。

a)训练数据内容过滤:对于每一种类型的训练数据,如文本、图片、音频、视频等,应在将数据

用于训练前,对全部训练数据进行过滤,过滤方法包括但不限于关键词、分类模型、人工抽检

等,去除数据中的违法不良信息。

b)知识产权:

1)应有训练数据知识产权管理策略,并明确负责人;

您可能关注的文档

文档评论(0)

**** + 关注
实名认证
内容提供者

资料大多来源网络,仅供交流与学习参考, 如有侵犯版权,请私信删除!

1亿VIP精品文档

相关文档