生成式人工智能训练数据著作权风险治理的比较研究.pdfVIP

  • 0
  • 0
  • 约2.61万字
  • 约 12页
  • 2026-01-22 发布于福建
  • 举报

生成式人工智能训练数据著作权风险治理的比较研究.pdf

第27卷第2期北京邮电大学学报(社会科学版)Vol.27,No.2

2025年4月JournalofBeijingUniversityofPostsandTelecommunications(SocialSciencesEdition)Apr.2025

DOI10.19722/ki.1008-7729.2024.0144

生成式人工智能训练数据著作权风险治理的比较研究

赵丽莉,胡宸鸣

(山东科技大学知识产权学院,山东青岛266590)

摘要:以ChatGPT为代表的生成式人工智能蓬勃发展赋能经济发展和社会进步,与此同时,如何平衡好人类创作者与新

技术发展之间的利益冲突,维护著作权人的权利的同时促进新技术的发展与进步成为各国关注的重点。欧盟国家、美国和

日本等对生成式人工智能训练数据著作权风险治理秉持着不同的立法态度,《中华人民共和国著作权法》对生成式人工智

能训练数据亦面临规制困境。对此,基于比较法视角分析,提出应为生成式人工智能训练数据设置合理使用制度,并设立

人工智能服务提供者的主体责任制度,提出透明度要求,以确保人工智能的开发者、语料著作权人、用户、社会公众等各

方主体利益平衡。

关键词:生成式人工智能;训练数据;著作权侵权;合理使用

中图分类号:D923.4文献标识码:A文章编号:1008-7729(2025)02-0065-12

一、研究回顾与问题提出

2022年11月,OpenAI研发的聊天机器人ChatGPT(ChatGenerativePre-trainedTransformer)问世,

仅两个月时间就吸引了约1亿月度用户①,并在科技界掀起了一股生成式人工智能技术(Generative

ArtificialIntelligence,GAI)研发的浪潮。随着大语言模型技术的发展,GAI不再仅仅局限于文本生成,

还广泛应用于文生图、文生音乐和文生视频等多种模型,这标志着GAI已经进入蓬勃发展的时期。而

GAI技术依赖海量数据的输入,这些数据中往往包含大量受著作权保护的作品。因此,在使用这些数

据进行训练时,可能会引发关于著作权侵权的法律争议。2023年12月27日,《纽约时报》起诉OpenAI

及其投资公司——微软公司,认为其在模型训练中使用了大量《纽约时报》享有著作权的作品。随后,

其他几家数字新闻媒体也纷纷加入起诉OpenAI侵权的行列。除新闻媒体外,还有数名演员、记者,以及美

国作家协会对OpenAI提起诉讼,称该公司的大语言模型未经其允许擅自使用他们受著作权保护的作品。

越来越多的案例涌现,显示出GAI繁荣发展的同时也正在考验着著作权法的边界,传统著作权法如

何应对新技术变革带来的新问题引起人们的广泛关注。目前,各GAI公司往往通过合理使用制度为自己

抗辩。而实际上,对于将他人享有著作权的作品作为GAI训练数据是否构成侵权,目前尚存在很多争论。

有观点认为,数据挖掘和训练中的作品使用行为应当被列为合理使用[1]。有的观点则指出训练GAI依赖

大量获取与利用的数字化作品,因此其侵犯原有作品的著作权风险仍比较大[2]。也有观点认为应当区分数

据的使用场景,在训练GAI的输入阶段和训练阶段使用受著作权保护的作品属于“非作品性使用”,故不

构成著作权侵权;而在输出阶段,则要综合考量输出结果对训练数据中作品的改动幅度[3]。对于在训练数

据中使用著作权作品究竟侵犯了著作权体系中的哪种权利,至今尚并未形成通说。有学者认为GAI训练

数据最大的著作权侵权风险是侵犯复制权和改编权。在输入阶段,需要用大量受著作权保护的作品来训

练人工智能,容易侵犯作品的复制权。而在输出阶段,如果在保留原作品表达的基础上形成了新的表达,

则可能涉及改编权问题[4]。还有观点认为,GAI除有可能侵犯复制权和改编权外,其在训练过程中若对信

收稿日期:2024-12-12

基金项目:山东科技大学人文社会科学科研创新团队项目(2020RWB003)阶段性研究成果

作者简介:赵丽莉(1978—),女,山西晋中人,博士,教授,硕士生导师

①数据来源:ChatGPTcontinuestob

文档评论(0)

1亿VIP精品文档

相关文档