生成式人工智能模型训练中作品数据的著作权保护.pdfVIP

下载本文档

0
0
约2.81万字
约 12页
2026-01-23 发布于福建
举报

生成式人工智能模型训练中作品数据的著作权保护.pdf

江苏社会科学2025年第3期

生成式人工智能模型训练中

作品数据的著作权保护

郭万明

内容提要从著作权法来看，GenAI模型训练是对作品的非表达性使用和非作品性使用，而事实上其

属于一种类似于人类学习的对作品表达的特殊使用。GenAI生成物虽然在表达上与原作品不同，却完全可

能成为众多原作品最优的思想、风格的集大成者，在生成物产量远高于人类作品的情况下会恶化作品市场

的竞争环境。鉴于先授权后使用存在授权难以实施等弊端，而GenAI模型训练使用作品的行为适用合理使

用制度予以侵权豁免无法平衡人工智能发展和著作权人的权益，建议根据惠益分享原则，在GenAI模型发

展初期采用合理使用制度配合政府基金，时机成熟时再在立法上新增法定许可类型，并以著作权集体管理

制度的完善为配套。当前，在合理使用制度的具体安排上，GenAI模型训练对作品的利用行为不符合《著作

权法》第24条第1款规定的合理使用任何情形，但与“三步检验法”不冲突，可以考虑在司法实践中利用目的

性转换规则将模型训练行为解释为合理使用。

关键词GenAI模型训练惠益分享合理使用法定许可使用

郭万明，博士，嘉兴南湖学院人文与艺术学院副教授

一、生成式人工智能大模型输入端模型训练面临的法律挑战

近年来，随着以ChatGPT为代表的生成式人工智能大模型的崛起，数据训练引起的著作权纷争不

断。“笔神作文”的数据被“学而思”爬取用于开发自己的数学大模型MathGPT；微软、OpenAI等因爬取

畅销书作家的小说，路透社、《纽约时报》等国外主流媒体的评论文章，全球知名图片提供商的图片以

及视频等数据用于大模型训练而引发纠纷。爬取数据除了用于训练，还涉及简单模仿问题。一度在

各大网络平台爆火的歌曲HeartonMySleeve就是通过AI模型对歌手Drake和TheWeekend的嗓音、唱

法进行训练模仿而生成的。这种仅用两个歌手的嗓音、唱法数据进行模型训练的做法更接近吴汉东

本文为国家社会科学基金项目“智能算法相关创新的可专利性研究”（20BFX139）、嘉兴市2023年“星耀南湖”教育

拔尖人才（高校）项目资助的阶段性成果。

··

166

生成式人工智能模型训练中作品数据的著作权保护

[1]

所称的“私人定制化”情形。私人定制化虽然是随着人工智能的发展而产生的新手段，却可能是侵

犯权利人复制权、改编权、传播权等著作权侵权的老问题，不作为本文的研究范围。

以上生成式人工智能（generativeartificialintelligence，以下简称GenAI）领域各类获取数据引发的

纠纷大多聚焦模型训练阶段未经授权的作品利用行为，权利人主张这些行为不属于合理使用情形，需

要取得许可并支付报酬，或认为涉嫌不正当竞争。相较于AI生成内容的著作权属性和权利分配，大

模型训练所涉著作权问题存在于生成式人工智能生命周期的前端，该训练阶段究竟涉及哪些著作权

利用行为？这一过程可能存在哪些侵权风险？从产业发展考虑，构建一个透明、公正、科学的大模型

[2]

训练著作权侵权责任豁免机制有助于减少技术进步和产业发展面临的法律不确定性。

二、GenAI模型训练行为的著作权法性质及相关国家立法检视

1.GenAI大模型模型训练行为的著作权法性质

人工智能模型训练包括数据的收集、预处理、模型训练与迭代、模型固定等程序。从著作权法角

度看，GenAI模型训练阶段涉及“作品获取”“作品存储”“模型训练”三个可能有著作权法意义的行为。

（1）“作品获取”行为的法律性质分析

从著作权法角度看“，获取作品”或者说对作品的接触，类似自然人线上浏览网页和线下阅读书籍，

只接触而不存在后续的传播利用行为，大概率不会侵犯著作权。这一阶段的法律风险主要涉及诸如破

坏计算机信息系统、违反API端口协议等《中华人民共和国著作权法》（下文简称《著作权法》）第49条规

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

生成式人工智能模型训练中作品数据的著作权保护.pdfVIP