AI模型训练中著作权合理使用解释分析及进路选择.pdfVIP

  • 1
  • 0
  • 约2.54万字
  • 约 11页
  • 2026-01-26 发布于福建
  • 举报

AI模型训练中著作权合理使用解释分析及进路选择.pdf

2025年第5期专题研讨Feature

AI模型训练中著作权合理使用解释分析

及进路选择

文 /吴广海 刘一鸣

摘要:AI模型的训练以巨量的数据投喂为前置步骤。数据未经许可被纳入训练极易造

成对著作权的侵犯。大数据训练本身具备的“营利性”“表达性”与“竞争性”等特点,使

其面临合理使用的解释障碍。在人工智能迅速迭代的当下,合理使用原则适用乏力,亟

待调整。因此,在制度层面,可依解释论对合理使用制度作进一步诠释,对“营利性使

用”“表达性使用”“竞争性使用”三大判断标准进行解释分析。为减少“营利性使用”对

AI模型训练行为的限制,可将“营利”理解为“直接营利”并引入“转化性使用”。判断

“表达性使用”时,可从后端输出内容考虑,将输出内容划分为不同种类并与输入内容进行

比较。面对“竞争性使用”的屏障,可将企业数据合规义务前置以缓解“竞争性使用”冲

突。在技术层面,尝试探索联邦学习技术、算法解释技术与数字版权管理技术利于配合制

度层面的解释。通过制度解释与技术探索,以求对著作权合理使用原则进行扩张,使得AI

模型的训练行为得以纳入其中。

关键词:数据侵权;著作权合理使用;数据训练;数字技术

一、AI模型巨量数据训练引发著作权GeneratedContent,AIGC)技术的发展历史,其

侵权风险实就是生成式模型(GenerativeModels)的发展

1

历史。随着算力发展、硬件更新和人工智能治

人工智能生成内容(ArtificialIntelligence理体系的不断完善,生成式模型的复杂程度和

基金项目:本文系国家社会科学基金一般项目“少数民族非物质文化遗产知识产权保护制度创新研究”(项目编号为:

20BMZ083)的阶段性成果。

作者简介:吴广海,南京理工大学知识产权学院教授;刘一鸣,南京理工大学知识产权学院。

1.参见李铭轩、文继荣:《AIGC时代网络信息内容的法律治理——以大语言模型为例》,载《北京理工大学学报(社会

科学版)》2023年第6期,第84页。

6464

2025年第5期专题研讨Feature

创新能力进一步提升,模型的参数规模也在迅开性,当事人往往通过识别生成内容是否侵权

2

速增长,最近的参数规模甚至达到千亿级。人来倒推训练过程是否侵权。若生成内容构成实

工智能需要储备巨量文字、图片甚至视频作为质侵权,其模型训练的过程也会连带遭到质疑。

6

训练素材,并将其转化为机器可以识别的内容美国OpenAIvs.Journalism一案便是如此。原

形式,而后将这些数据导入系统供机器学习使告《纽约时报》根据生成内容的相似性主张被

3

用。这一输入和学习的过程,就是人工智能模告OpenAI非法复制和使用《纽约时报》上刊

型训练的过程。这一过程涉及知识产权数据的登的文章,并诉请被告销毁所有包含《纽约时

使用问题。知识产权数据是指知识产权公共服报》作品的数据集。这便是从生成内容侵权入

务平台公开公布的以及企事业单位、科研院所手控制前端模型训练过程的典型思路。模型输

等在

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档