生成式人工智能数据蒸馏的著作权风险及其化解.pdfVIP

  • 0
  • 0
  • 约3.43万字
  • 约 12页
  • 2026-01-22 发布于福建
  • 举报

生成式人工智能数据蒸馏的著作权风险及其化解.pdf

宁夏社会科学|NINGXIASOCIALSCIENCES2025年第6期总第254期

No.62025Gen.No.254

生成式人工智能数据蒸馏的著作权风险及其化解

焦和平,唐文菁

(西安交通大学知识产权研究中心,陕西西安710049)

摘要:数据蒸馏是一种提升模型训练效率的机器学习技术。数据蒸馏的核心主体可以形象化为“学生”

与“教师”两个模型。学生模型通过数据蒸馏使用教师模型的训练结果,导致其输入端存在侵犯教师模型生

成内容、输出端存在侵犯现有作品及教师模型训练数据集的著作权风险。尽管从法哲学、法经济学、法政策

学的视角出发,将数据蒸馏纳入合理使用既有利于实现公平正义、提升社会效益,也有利于促进公平竞争、推

动产业发展、提升国际竞争力,但目前仍缺少能够直接适用的立法和司法判断标准。建议在《中华人民共和国

著作权法》中新增数据蒸馏为法定情形,将适用范围限定于学生模型投入市场前。针对合理使用无法覆盖的侵

权风险,建议模型研发者借助技术手段优化模型,有效规避风险。从长远来看,应在行业层面借助人工智能模

型训练开源社区的自治规范,鼓励科技企业选择开放创新模式,从源头上平抑数据蒸馏的著作权风险。

关键词:生成式人工智能;数据蒸馏;著作权

中图分类号:D923文献标志码:A文章编号:1002-0292(2025)06-0108-12

一、问题的提出Seek-V3技术报告》指出,DeepSeek-V3的直接训

[1]

随着人工智能技术的更新迭代,生成式人工练成本仅为557.6万美元。其虽在研发成本上远

智能(GenerativeArtificialIntelligence)逐渐进入大小于ChatGPT,但却具有与GPT-4o、Claude-3.5-

众视野。以ChatGPT为例,这种高水平生成式人Sonnet等领先模型相当的性能,这得益于数据蒸

[2]

工智能依托于海量数据,经过复杂的训练才得以馏(DataDistillation)的高效运用。数据蒸馏是

诞生,其所耗费的研发成本难以估量。然而,我国一种机器学习技术,它能够将大规模数据集压缩

科技企业凭借较低的研发成本,成功推出能够媲成小规模但具代表性的数据集,使得在小规模数

美ChatGPT的生成式人工智能,即DeepSeek。《Deep⁃据集上训练的简单模型无需经过较为复杂的训

作者简介:焦和平(1974—),男,陕西西安人,西安交通大学知识产权研究中心教授,博士生导师,主要研究方向为知

识产权法、科技法;唐文菁(2002—),女,安徽蚌埠人,西安交通大学知识产权研究中心研究人员,主要研究方

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档