AI大模型训练数据的版权风险与治理路径.pdfVIP

下载本文档

0
0
约2.17万字
约 9页
2026-01-23 发布于福建
举报

AI大模型训练数据的版权风险与治理路径.pdf

２０２５年９月湖北大学学报(哲学社会科学版)Ｓｅｐ.ꎬ２０２５

第５２卷第５期ＪｏｕｒｎａｌｏｆＨｕｂｅｉＵｎｉｖｅｒｓｉｔｙ(ＰｈｉｌｏｓｏｐｈｙａｎｄＳｏｃｉａｌＳｃｉｅｎｃｅ)Ｖｏｌ.５２Ｎｏ.５

ＡＩ大模型训练数据的版权风险与治理路径

黄孟苏

(重庆大学法学院ꎬ重庆４０００４４)

摘要:数据作为新型生产要素ꎬ在ＡＩ大模型训练中发挥基础性作用ꎬ对模型性能提升非常关键ꎮ违规收

集数据训练ＡＩ大模型面临版权风险ꎬ包括直接侵犯版权、衍生作品版权归属模糊、版权链断裂、法律风险及合规

难题ꎮ此类问题的版权治理面临挑战ꎬ如版权归属与数据使用的模糊性、侵权认定标准的争议、版权保护与数据

共享的冲突、跨国版权治理的复杂性及科技发展与立法滞后性的矛盾等ꎮ为了解决这些问题ꎬ需要依靠多维度

的治理方案ꎬ包括强化设计者和平台的版权意识、明确标记数据来源和版权归属、建立数据使用许可机制、加强

技术监管和审核、构建多元互惠合作关系及完善立法和监管体系ꎬ以此为ＡＩ技术的健康发展提供有效的版权保

护策略ꎮ

关键词:生成式人工智能ꎻＡＩ大模型ꎻ著作权法ꎻ版权链断裂ꎻ训练数据ꎻ侵权行为

－－－

中图分类号:ＤＦ５２３ꎻＤ９２３.４文献标志码:Ａ文章编号:１００１４７９９(２０２５)０５０１８５０９

在数字化时代ꎬ人工智能(ＡＩ)技术的迅猛发展正深刻改变着人类社会的方方面面ꎬＡＩ大模型凭借强

大的数据处理与学习能力ꎬ“获得了理解人类自然语言的能力以及生成文本、图片、音频和视频等内容的

①

能力”ꎮ然而ꎬＡＩ大模型的训练离不开海量数据的支撑ꎬ“生成式人工智能模型的性能ꎬ很大程度上由研

②

发所用的数据决定”ꎮ近年来ꎬ随着ＣｈａｔＧＰＴ、ＤｅｅｐＳｅｅｋ等ＡＩ大模型的广泛应用ꎬ大模型的数据获取和

训练问题成为理论界、实务界关注的热点ꎮ２０２４年１２月２７日ꎬ中国人民大学国家版权贸易基地发布

③

“２０２４数字版权保护与发展年度关键词”ꎬ“ＡＩ大模型语料训练版权挑战”位列八大关键词中的第三位ꎮ

２０２５年４月１８日ꎬ中国版权协会发布“２０２４年中国版权十件大事”ꎬ位列第四的是“人工智能大模型应用

④

版权规则引热议”ꎬ其中包括生成式人工智能技术和应用引发的大模型训练使用数据的版权风险问题ꎮ

２０２３年ꎬ美国Ａｌｐｈａｂｅｔ集团旗下的谷歌(Ｇｏｏｇｌｅ)公司推出ＡＩ聊天机器人“巴德”(原名“Ｂａｒｄ”ꎬ现在改名

“Ｇｅｍｉｎｉ”)ꎬ在未提前告知的情况下ꎬ爬取法国多家出版商的内容用来训练ꎮ２０２４年３月２０日ꎬ法国反垄

断监管机构宣布ꎬ对其处以２.５亿欧元的罚款ꎬ谷歌就此成为第一家因为训练数据而被罚款的人工智能

⑤

(ＡＩ)公司ꎮ在美国ꎬ有多名作家对英伟达发起集体诉讼ꎬ指控该公司的ＮｅＭｏＡＩ平台使用盗版文学网站

素材训练人工智能的自然语言撰写技能ꎮ可见ꎬ“大模型训练引发的版权争议问题已成为行业焦点ꎬ其潜在

⑥

风险不容小觑”ꎬ同时“数据层面的版权纠纷已成为国际焦点”ꎮ有学者更是直截了当地指出:“人工智能训

康骁:«行政法如何应对生成式人工智能———基于算法、训练数据和内容的考察»ꎬ«云南社会科学»２０２４年第４期ꎮ

①

王健、吴宗泽:«生成式人工智能反垄断论纲»ꎬ«法治研究»２０２４年第６期ꎮ

②

参见张维:«人工智能带来版权之争有待法律政策给指引»ꎬ«法治日报»２０２５年１月１７日ꎬ第７版ꎮ

③

参见«２０２４

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

AI大模型训练数据的版权风险与治理路径.pdfVIP