AIGC训练数据的版权风险与合理使用规则.pdfVIP

  • 0
  • 0
  • 约5.76千字
  • 约 2页
  • 2026-01-26 发布于福建
  • 举报

AIGC训练数据的版权风险与合理使用规则.pdf

INSIGHTI博览

AIGC训练数据的版权风险与合理使用规则

人工智能训练与著作权冲突的解决策略需兼顾技术创新与权利保护,结合国内外现有法律规范、

技术手段与行业协作探索构建综合治理体系

宿文边可萱

生成式人工智能技术(AIGC)的快速迭代与场景渗透,隙,导致司法实践中分歧较大,使得AI训练面临较大的

正在对传统版权制度形成系统性冲击,传统的版权制度侵权风险。

也已给AIGC技术的快速发展带来制约。为此,探讨具有数据处理阶段的侵权风险

可操作性的兼容技术创新与版权保护制度性的解决方案,数据处理阶段通过数字化与结构化转换作品,可能

成为呕待解决的问题。触发改编权,甚至是翻译权。业界学者通常采用“表达

性使用”这一标准来判断人工智能训练对作品数据的使

AIGC训练三阶段潜在的版权风险

用行为是否合法。人工智能训练一般被分为“表达型训

练”和“非表达型训练”。非表达型训练是将获取的数

AIGC作为人工智能的重要分支,通过分析数据分布

据作品仅用于人工智能系统内部学习,不涉及对外生成

特征生成新颖的合成内容(如文本、图像、视音频等)。

新表达性内容。如人脸识别系统,为训练完善人脸识别

训练过程通常分为三个阶段:一是数据准备阶段,收集

算法,技术人员从雅虎网站中收集整理了约50万张新闻

海量数据并进行清洗、标注与分类;二是数据处理阶段,

图片并对其中的人脸人像进行分析加工、整合为数据集,

依托文本与数据挖掘(TDM)实现结构化转换与特征提取;

提供给相关开发主体使用。但这类训练使用并不涉及侵

三是结果输出阶段,通过生成内容验证模型效果并迭代

优化。权,其提取、使用的人脸面部特征不具有创造性,不涉

及新闻图片作品中具有独创性表达的部分。而微软的“下

数据准备阶段的侵权风险

一个伦勃朗”项目,无论从训练资源还是生产结果,都

数据准备阶段离不开对海量数据作品的抓取与复制,

“海量数据作品的抓取与复制”与著作权法之间的冲突,极具针对性。系统完全以伦勃朗作品为训练资源进行智

能学习,生成的画作明显带有伦勃朗风格。尽管技术中

已成为当前全球法律和技术领域的热点问题。如GPT-4

立观点认为算法处理不涉及表达继承,但司法实践强调

整合使用超1万亿的token语料(含1200万版权图片),

结果导向一一如果AI生成的画作与某幅受版权保护的现

数据量远超《日本著作权法》第30-4条TDM例外的“必

代临作品高度相似,可能构成侵权。

要限度”,也突破了《伯尔尼公约》第9条“三步检验法”

结果输出阶段的信息网络传播权

之“少量使用”原则。数字时代,复制权的内涵已从传

传播权是《著作权法》中的一项重要权利,包括信

文档评论(0)

1亿VIP精品文档

相关文档