AI大模型训练数据的版权风险与治理路径.pdfVIP

  • 0
  • 0
  • 约2.17万字
  • 约 9页
  • 2026-01-23 发布于福建
  • 举报

AI大模型训练数据的版权风险与治理路径.pdf

2025年9月湖北大学学报(哲学社会科学版)Sep.ꎬ2025

第52卷第5期JournalofHubeiUniversity(PhilosophyandSocialScience)Vol.52No.5

AI大模型训练数据的版权风险与治理路径

黄孟苏

(重庆大学法学院ꎬ重庆400044)

摘要:数据作为新型生产要素ꎬ在AI大模型训练中发挥基础性作用ꎬ对模型性能提升非常关键ꎮ违规收

集数据训练AI大模型面临版权风险ꎬ包括直接侵犯版权、衍生作品版权归属模糊、版权链断裂、法律风险及合规

难题ꎮ此类问题的版权治理面临挑战ꎬ如版权归属与数据使用的模糊性、侵权认定标准的争议、版权保护与数据

共享的冲突、跨国版权治理的复杂性及科技发展与立法滞后性的矛盾等ꎮ为了解决这些问题ꎬ需要依靠多维度

的治理方案ꎬ包括强化设计者和平台的版权意识、明确标记数据来源和版权归属、建立数据使用许可机制、加强

技术监管和审核、构建多元互惠合作关系及完善立法和监管体系ꎬ以此为AI技术的健康发展提供有效的版权保

护策略ꎮ

关键词:生成式人工智能ꎻAI大模型ꎻ著作权法ꎻ版权链断裂ꎻ训练数据ꎻ侵权行为

---

中图分类号:DF523ꎻD923.4文献标志码:A文章编号:10014799(2025)05018509

在数字化时代ꎬ人工智能(AI)技术的迅猛发展正深刻改变着人类社会的方方面面ꎬAI大模型凭借强

大的数据处理与学习能力ꎬ“获得了理解人类自然语言的能力以及生成文本、图片、音频和视频等内容的

能力”ꎮ然而ꎬAI大模型的训练离不开海量数据的支撑ꎬ“生成式人工智能模型的性能ꎬ很大程度上由研

发所用的数据决定”ꎮ近年来ꎬ随着ChatGPT、DeepSeek等AI大模型的广泛应用ꎬ大模型的数据获取和

训练问题成为理论界、实务界关注的热点ꎮ2024年12月27日ꎬ中国人民大学国家版权贸易基地发布

“2024数字版权保护与发展年度关键词”ꎬ“AI大模型语料训练版权挑战”位列八大关键词中的第三位ꎮ

2025年4月18日ꎬ中国版权协会发布“2024年中国版权十件大事”ꎬ位列第四的是“人工智能大模型应用

版权规则引热议”ꎬ其中包括生成式人工智能技术和应用引发的大模型训练使用数据的版权风险问题ꎮ

2023年ꎬ美国Alphabet集团旗下的谷歌(Google)公司推出AI聊天机器人“巴德”(原名“Bard”ꎬ现在改名

“Gemini”)ꎬ在未提前告知的情况下ꎬ爬取法国多家出版商的内容用来训练ꎮ2024年3月20日ꎬ法国反垄

断监管机构宣布ꎬ对其处以2.5亿欧元的罚款ꎬ谷歌就此成为第一家因为训练数据而被罚款的人工智能

(AI)公司ꎮ在美国ꎬ有多名作家对英伟达发起集体诉讼ꎬ指控该公司的NeMoAI平台使用盗版文学网站

素材训练人工智能的自然语言撰写技能ꎮ可见ꎬ“大模型训练引发的版权争议问题已成为行业焦点ꎬ其潜在

风险不容小觑”ꎬ同时“数据层面的版权纠纷已成为国际焦点”ꎮ有学者更是直截了当地指出:“人工智能训

康骁:«行政法如何应对生成式人工智能———基于算法、训练数据和内容的考察»ꎬ«云南社会科学»2024年第4期ꎮ

王健、吴宗泽:«生成式人工智能反垄断论纲»ꎬ«法治研究»2024年第6期ꎮ

参见张维:«人工智能带来版权之争有待法律政策给指引»ꎬ«法治日报»2025年1月17日ꎬ第7版ꎮ

参见«2024

文档评论(0)

1亿VIP精品文档

相关文档