AI模型训练中著作权合理使用解释分析及进路选择.pdfVIP

AI模型训练中著作权合理使用解释分析及进路选择.pdf

2025年第5期专题研讨Feature

AI模型训练中著作权合理使用解释分析

及进路选择

文 /吴广海刘一鸣

摘要：AI模型的训练以巨量的数据投喂为前置步骤。数据未经许可被纳入训练极易造

成对著作权的侵犯。大数据训练本身具备的“营利性”“表达性”与“竞争性”等特点，使

其面临合理使用的解释障碍。在人工智能迅速迭代的当下，合理使用原则适用乏力，亟

待调整。因此，在制度层面，可依解释论对合理使用制度作进一步诠释，对“营利性使

用”“表达性使用”“竞争性使用”三大判断标准进行解释分析。为减少“营利性使用”对

AI模型训练行为的限制，可将“营利”理解为“直接营利”并引入“转化性使用”。判断

“表达性使用”时，可从后端输出内容考虑，将输出内容划分为不同种类并与输入内容进行

比较。面对“竞争性使用”的屏障，可将企业数据合规义务前置以缓解“竞争性使用”冲

突。在技术层面，尝试探索联邦学习技术、算法解释技术与数字版权管理技术利于配合制

度层面的解释。通过制度解释与技术探索，以求对著作权合理使用原则进行扩张，使得AI

模型的训练行为得以纳入其中。

关键词：数据侵权；著作权合理使用；数据训练；数字技术

一、AI模型巨量数据训练引发著作权GeneratedContent,AIGC)技术的发展历史，其

侵权风险实就是生成式模型（GenerativeModels）的发展

历史。随着算力发展、硬件更新和人工智能治

人工智能生成内容(ArtificialIntelligence理体系的不断完善，生成式模型的复杂程度和

基金项目：本文系国家社会科学基金一般项目“少数民族非物质文化遗产知识产权保护制度创新研究”（项目编号为：

20BMZ083）的阶段性成果。

作者简介：吴广海，南京理工大学知识产权学院教授；刘一鸣，南京理工大学知识产权学院。

1.参见李铭轩、文继荣：《AIGC时代网络信息内容的法律治理——以大语言模型为例》，载《北京理工大学学报（社会

科学版）》2023年第6期，第84页。

6464

2025年第5期专题研讨Feature

创新能力进一步提升，模型的参数规模也在迅开性，当事人往往通过识别生成内容是否侵权

速增长，最近的参数规模甚至达到千亿级。人来倒推训练过程是否侵权。若生成内容构成实

工智能需要储备巨量文字、图片甚至视频作为质侵权，其模型训练的过程也会连带遭到质疑。

训练素材，并将其转化为机器可以识别的内容美国OpenAIvs.Journalism一案便是如此。原

形式，而后将这些数据导入系统供机器学习使告《纽约时报》根据生成内容的相似性主张被

用。这一输入和学习的过程，就是人工智能模告OpenAI非法复制和使用《纽约时报》上刊

型训练的过程。这一过程涉及知识产权数据的登的文章，并诉请被告销毁所有包含《纽约时

使用问题。知识产权数据是指知识产权公共服报》作品的数据集。这便是从生成内容侵权入

务平台公开公布的以及企事业单位、科研院所手控制前端模型训练过程的典型思路。模型输