生成式人工智能数据蒸馏的著作权风险及其化解.pdfVIP

生成式人工智能数据蒸馏的著作权风险及其化解.pdf

宁夏社会科学｜NINGXIASOCIALSCIENCES2025年第6期总第254期

No.62025Gen.No.254

生成式人工智能数据蒸馏的著作权风险及其化解

焦和平，唐文菁

（西安交通大学知识产权研究中心，陕西西安710049）

摘要：数据蒸馏是一种提升模型训练效率的机器学习技术。数据蒸馏的核心主体可以形象化为“学生”

与“教师”两个模型。学生模型通过数据蒸馏使用教师模型的训练结果，导致其输入端存在侵犯教师模型生

成内容、输出端存在侵犯现有作品及教师模型训练数据集的著作权风险。尽管从法哲学、法经济学、法政策

学的视角出发，将数据蒸馏纳入合理使用既有利于实现公平正义、提升社会效益，也有利于促进公平竞争、推

动产业发展、提升国际竞争力，但目前仍缺少能够直接适用的立法和司法判断标准。建议在《中华人民共和国

著作权法》中新增数据蒸馏为法定情形，将适用范围限定于学生模型投入市场前。针对合理使用无法覆盖的侵

权风险，建议模型研发者借助技术手段优化模型，有效规避风险。从长远来看，应在行业层面借助人工智能模

型训练开源社区的自治规范，鼓励科技企业选择开放创新模式，从源头上平抑数据蒸馏的著作权风险。

关键词：生成式人工智能；数据蒸馏；著作权

中图分类号：D923文献标志码：A文章编号：1002-0292（2025）06-0108-12

一、问题的提出Seek-V3技术报告》指出，DeepSeek-V3的直接训

［1］

随着人工智能技术的更新迭代，生成式人工练成本仅为557.6万美元。其虽在研发成本上远

智能（GenerativeArtificialIntelligence）逐渐进入大小于ChatGPT，但却具有与GPT-4o、Claude-3.5-

众视野。以ChatGPT为例，这种高水平生成式人Sonnet等领先模型相当的性能，这得益于数据蒸

［2］

工智能依托于海量数据，经过复杂的训练才得以馏（DataDistillation）的高效运用。数据蒸馏是

诞生，其所耗费的研发成本难以估量。然而，我国一种机器学习技术，它能够将大规模数据集压缩

科技企业凭借较低的研发成本，成功推出能够媲成小规模但具代表性的数据集，使得在小规模数

美ChatGPT的生成式人工智能，即DeepSeek。《Deep⁃据集上训练的简单模型无需经过较为复杂的训

作者简介：焦和平（1974—），男，陕西西安人，西安交通大学知识产权研究中心教授，博士生导师，主要研究方向为知

识产权法、科技法；唐文菁（2002—），女，安徽蚌埠人，西安交通大学知识产权研究中心研究人员，主要研究方

更多 >