论生成式人工智能数据训练的合法性基础.pdfVIP

  • 0
  • 0
  • 约1.8万字
  • 约 10页
  • 2026-01-22 发布于福建
  • 举报

论生成式人工智能数据训练的合法性基础.pdf

335Vol.33No.5

第卷第期学报(社会科学版)

20259Sep.2025

年月JOURNALOFCHENGDUUNIVERSITYOFTECHNOLOGY(SocialSciences)

DOI:10.3969/j.issn.1672-0539.2025.05.003

论生成式人工智能数据训练的合法性基础

张建文,孙依梦

(西南政法大学民商法学院,重庆401120)

摘要:生成式人工智能训练阶段依靠大量的数据,数据输入是生成式人工智能

生成作品的前提和基础,而作为数据输入之前提的数据收集,则主要以网页抓取

的方式进行。网页抓取的行为往往涉及个人信息处理,获取数据的合法授权问题

成为企业亟须解决的难题。自然人的个人同意不足以成为大数据时代服务于生成

式人工智能数据训练的基本选择,而《个人信息保护法》没有为训练数据来源提

供责任豁免。在司法实践中,处理者的正当利益可以作为个人信息处理的合法性

基础,为作为数据处理行为的数据训练提供合法性依据。但处理者的“正当利益”

判定涉及信息主体的容忍义务,亟待明确其适用的合理边界,平衡个人信息的合

理利用与权益保护,形成我国生成式人工智能数据训练的合规路径。

关键词:数据训练;合法性基础;个人同意;正当利益;平衡测试

中图分类号:D923.41/TP18文献标识码:A

文章编号:1672-0539(2025)05-003-10

引用格式:张建文,孙依梦.论生成式人工智能数据训练的合法性基础[J].成

都理工大学学报(社会科学版),2025,33(5):24-33.

收稿日期:2025-04-22

基金项目:国家社会科学基金一般项目(22BFX079)

作者简介:张建文(1977—),男,河南邓州人,博士,教授,博士生导师,研究方向:民法、个人信息法学

孙依梦(2003—),女,河南南阳人,硕士研究生,研究方向:民法、个人信息法学

24

··

335

第卷张建文,等:论生成式人工智能数据训练的合法性基础第期

一、生成式人工智能数据训练的合法性困境

我国2023年发布的《生成式人工智能服务管理暂行办法》第22条将生成式人工智能技术定

义为“具有文本、图片、音频、视频等内容生成能力的模型及相关技术”。随着人工智能技术的

快速发展,数据训练在各类AI模型中发挥着越来越重要的作用,人工智能依赖大量数据训练实

现精准预测、文本生成、图像处理等功能。首先,生成式人工智能数据训练的数据来源主要是网

页抓取,数据对于推进人工智能模型的发展至关重要,可以提供训练有效模型所需的广泛且语境

丰富的语料库,但这不可避免地会抓取到个人信息或非个人信息。由于部分个人信息可能包含额

外信息,将导致某些本不可被识别的个人信息通过额外信息被识别,并且抓取数据的行为是一种

“隐形处理”活动,可能会给用户造成侵入性风险。而用户难以基于同意而授权大模型抓取公开

数据进行预训练,这就引发了个人信息处理的合法性基础问题。我国《中华人民共和国个人信息

保护法》(以下简称《个人信息保护法》)第13条规定了六种处理个人信息的合法性基础,其中

与数据训练最为密切相关的为第1款“取得个人的同意”,但数据训练涉及海量数据,知情同意

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档