AIGC训练数据的版权风险与合理使用规则.pdfVIP

下载本文档

0
0
约5.76千字
约 2页
2026-01-26 发布于福建
举报

AIGC训练数据的版权风险与合理使用规则.pdf

INSIGHTI博览

AIGC训练数据的版权风险与合理使用规则

人工智能训练与著作权冲突的解决策略需兼顾技术创新与权利保护，结合国内外现有法律规范、

技术手段与行业协作探索构建综合治理体系

宿文边可萱

生成式人工智能技术（AIGC)的快速迭代与场景渗透，隙，导致司法实践中分歧较大，使得AI训练面临较大的

正在对传统版权制度形成系统性冲击，传统的版权制度侵权风险。

也已给AIGC技术的快速发展带来制约。为此，探讨具有数据处理阶段的侵权风险

可操作性的兼容技术创新与版权保护制度性的解决方案，数据处理阶段通过数字化与结构化转换作品，可能

成为呕待解决的问题。触发改编权，甚至是翻译权。业界学者通常采用“表达

性使用”这一标准来判断人工智能训练对作品数据的使

AIGC训练三阶段潜在的版权风险

用行为是否合法。人工智能训练一般被分为“表达型训

练”和“非表达型训练”。非表达型训练是将获取的数

AIGC作为人工智能的重要分支，通过分析数据分布

据作品仅用于人工智能系统内部学习，不涉及对外生成

特征生成新颖的合成内容（如文本、图像、视音频等）。

新表达性内容。如人脸识别系统，为训练完善人脸识别

训练过程通常分为三个阶段：一是数据准备阶段，收集

算法，技术人员从雅虎网站中收集整理了约50万张新闻

海量数据并进行清洗、标注与分类；二是数据处理阶段，

图片并对其中的人脸人像进行分析加工、整合为数据集，

依托文本与数据挖掘（TDM）实现结构化转换与特征提取；

提供给相关开发主体使用。但这类训练使用并不涉及侵

三是结果输出阶段，通过生成内容验证模型效果并迭代

优化。权，其提取、使用的人脸面部特征不具有创造性，不涉

及新闻图片作品中具有独创性表达的部分。而微软的“下

数据准备阶段的侵权风险

一个伦勃朗”项目，无论从训练资源还是生产结果，都

数据准备阶段离不开对海量数据作品的抓取与复制，

“海量数据作品的抓取与复制”与著作权法之间的冲突，极具针对性。系统完全以伦勃朗作品为训练资源进行智

能学习，生成的画作明显带有伦勃朗风格。尽管技术中

已成为当前全球法律和技术领域的热点问题。如GPT-4

立观点认为算法处理不涉及表达继承，但司法实践强调

整合使用超1万亿的token语料（含1200万版权图片），

结果导向一一如果AI生成的画作与某幅受版权保护的现

数据量远超《日本著作权法》第30-4条TDM例外的“必

代临作品高度相似，可能构成侵权。

要限度”，也突破了《伯尔尼公约》第9条“三步检验法”

结果输出阶段的信息网络传播权

之“少量使用”原则。数字时代，复制权的内涵已从传

传播权是《著作权法》中的一项重要权利，包括信

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

AIGC训练数据的版权风险与合理使用规则.pdfVIP