- 0
- 0
- 约3.43万字
- 约 12页
- 2026-01-22 发布于福建
- 举报
宁夏社会科学|NINGXIASOCIALSCIENCES2025年第6期总第254期
No.62025Gen.No.254
生成式人工智能数据蒸馏的著作权风险及其化解
焦和平,唐文菁
(西安交通大学知识产权研究中心,陕西西安710049)
摘要:数据蒸馏是一种提升模型训练效率的机器学习技术。数据蒸馏的核心主体可以形象化为“学生”
与“教师”两个模型。学生模型通过数据蒸馏使用教师模型的训练结果,导致其输入端存在侵犯教师模型生
成内容、输出端存在侵犯现有作品及教师模型训练数据集的著作权风险。尽管从法哲学、法经济学、法政策
学的视角出发,将数据蒸馏纳入合理使用既有利于实现公平正义、提升社会效益,也有利于促进公平竞争、推
动产业发展、提升国际竞争力,但目前仍缺少能够直接适用的立法和司法判断标准。建议在《中华人民共和国
著作权法》中新增数据蒸馏为法定情形,将适用范围限定于学生模型投入市场前。针对合理使用无法覆盖的侵
权风险,建议模型研发者借助技术手段优化模型,有效规避风险。从长远来看,应在行业层面借助人工智能模
型训练开源社区的自治规范,鼓励科技企业选择开放创新模式,从源头上平抑数据蒸馏的著作权风险。
关键词:生成式人工智能;数据蒸馏;著作权
中图分类号:D923文献标志码:A文章编号:1002-0292(2025)06-0108-12
一、问题的提出Seek-V3技术报告》指出,DeepSeek-V3的直接训
[1]
随着人工智能技术的更新迭代,生成式人工练成本仅为557.6万美元。其虽在研发成本上远
智能(GenerativeArtificialIntelligence)逐渐进入大小于ChatGPT,但却具有与GPT-4o、Claude-3.5-
众视野。以ChatGPT为例,这种高水平生成式人Sonnet等领先模型相当的性能,这得益于数据蒸
[2]
工智能依托于海量数据,经过复杂的训练才得以馏(DataDistillation)的高效运用。数据蒸馏是
诞生,其所耗费的研发成本难以估量。然而,我国一种机器学习技术,它能够将大规模数据集压缩
科技企业凭借较低的研发成本,成功推出能够媲成小规模但具代表性的数据集,使得在小规模数
美ChatGPT的生成式人工智能,即DeepSeek。《Deep⁃据集上训练的简单模型无需经过较为复杂的训
作者简介:焦和平(1974—),男,陕西西安人,西安交通大学知识产权研究中心教授,博士生导师,主要研究方向为知
识产权法、科技法;唐文菁(2002—),女,安徽蚌埠人,西安交通大学知识产权研究中心研究人员,主要研究方
您可能关注的文档
- 生成式人工智能对政府数据开放的影响研究.pdf
- 生成式人工智能数据安全风险防控机制与法律规制的协同发展.pdf
- 生成式人工智能文本与数据挖掘的合理使用制度重构.pdf
- 生成式人工智能时代次生政治舆论的发展结果及治理策略.pdf
- 生成式人工智能服务提供者的责任分配机制.pdf
- 生成式人工智能服务提供者责任豁免规则之完善——兼论传统网络服务提供者责任豁免规则的适用困境与应对.pdf
- 生成式人工智能模型训练中数据限制处理权的证成与实现.pdf
- 生成式人工智能生产者过失犯罪的结果归责.pdf
- 生成式人工智能的刑事归责困境及其纾解——基于功能责任论的立场.pdf
- 生成式人工智能背景下DeepSeek赋能“刑事侦查学”课程资源开发的实践探索——以中国人民公安大学为例.pdf
- 2026年全球航空航天材料行业分析报告及未来五至十年轻量化报告.docx
- 2026年数据中心液冷散热技术报告及未来五至十年绿色节能报告.docx
- 2026年3D打印设备分析报告及未来五至十年增材制造报告.docx
- 2026年新能源汽车充电桩市场分析报告及未来五至十年行业趋势报告.docx
- 2026年高端数控机床行业分析报告及未来五至十年技术升级报告.docx
- 2026年旅游民宿管理报告及未来五至十年消费升级报告.docx
- 2026年卫星导航定位分析报告及未来五至十年行业发展报告.docx
- 2026年环保技术设备报告及未来五至十年碳中和报告.docx
- 2026年物流仓储自动化分析报告及未来五至十年效率报告.docx
- 2026年量子计算商业化报告及未来五至十年算力突破报告.docx
原创力文档

文档评论(0)