论生成式人工智能数据训练的合法性基础.pdfVIP

下载本文档

0
0
约1.8万字
约 10页
2026-01-22 发布于福建
举报

论生成式人工智能数据训练的合法性基础.pdf

335Vol.33No.5

第卷第期学报（社会科学版）

20259Sep.2025

年月JOURNALOFCHENGDUUNIVERSITYOFTECHNOLOGY(SocialSciences)

DOI:10.3969/j.issn.1672-0539.2025.05.003

论生成式人工智能数据训练的合法性基础

张建文，孙依梦

（西南政法大学民商法学院，重庆401120）

摘要：生成式人工智能训练阶段依靠大量的数据，数据输入是生成式人工智能

生成作品的前提和基础，而作为数据输入之前提的数据收集，则主要以网页抓取

的方式进行。网页抓取的行为往往涉及个人信息处理，获取数据的合法授权问题

成为企业亟须解决的难题。自然人的个人同意不足以成为大数据时代服务于生成

式人工智能数据训练的基本选择，而《个人信息保护法》没有为训练数据来源提

供责任豁免。在司法实践中，处理者的正当利益可以作为个人信息处理的合法性

基础，为作为数据处理行为的数据训练提供合法性依据。但处理者的“正当利益”

判定涉及信息主体的容忍义务，亟待明确其适用的合理边界，平衡个人信息的合

理利用与权益保护，形成我国生成式人工智能数据训练的合规路径。

关键词：数据训练；合法性基础；个人同意；正当利益；平衡测试

中图分类号：D923.41/TP18文献标识码：A

文章编号：1672-0539（2025）05-003-10

引用格式：张建文，孙依梦．论生成式人工智能数据训练的合法性基础[J].成

都理工大学学报（社会科学版），2025，33（5）：24-33.

收稿日期：2025-04-22

基金项目：国家社会科学基金一般项目（22BFX079）

作者简介：张建文（1977—），男，河南邓州人，博士，教授，博士生导师，研究方向：民法、个人信息法学

孙依梦（2003—），女，河南南阳人，硕士研究生，研究方向：民法、个人信息法学

··

335

第卷张建文，等：论生成式人工智能数据训练的合法性基础第期

一、生成式人工智能数据训练的合法性困境

我国2023年发布的《生成式人工智能服务管理暂行办法》第22条将生成式人工智能技术定

义为“具有文本、图片、音频、视频等内容生成能力的模型及相关技术”。随着人工智能技术的

快速发展，数据训练在各类AI模型中发挥着越来越重要的作用，人工智能依赖大量数据训练实

现精准预测、文本生成、图像处理等功能。首先，生成式人工智能数据训练的数据来源主要是网

页抓取，数据对于推进人工智能模型的发展至关重要，可以提供训练有效模型所需的广泛且语境

丰富的语料库，但这不可避免地会抓取到个人信息或非个人信息。由于部分个人信息可能包含额

外信息，将导致某些本不可被识别的个人信息通过额外信息被识别，并且抓取数据的行为是一种

“隐形处理”活动，可能会给用户造成侵入性风险。而用户难以基于同意而授权大模型抓取公开

数据进行预训练，这就引发了个人信息处理的合法性基础问题。我国《中华人民共和国个人信息

保护法》（以下简称《个人信息保护法》）第13条规定了六种处理个人信息的合法性基础，其中

与数据训练最为密切相关的为第1款“取得个人的同意”，但数据训练涉及海量数据，知情同意

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

论生成式人工智能数据训练的合法性基础.pdfVIP