- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
AI大模型时代出版内容数据保护的理据与进路
摘要:探讨AI大模型数据训练语境下出版内容数据保护问题,提出出版内容数据保护的多元路径,推进出版产业数智化转型。文章采取文献研究方法,分析AI大模型时代出版内容数据保护的多维价值,指出出版内容数据保护存在的多重困境,包括出版内容数据产权规范不明确、授权交易机制缺失、侵权判定困难、主体利益分配失衡。为推进出版产业数智化转型,提出完善建议:探索出版内容数据产权保护与行为规制路径,构建开放型的出版内容数据授权交易模式,设立可信可控的出版内容数据合规审查机制,优化出版内容数据参与者的利益分配。
关键词:数智化转型;大模型数据训练;出版内容数据;数据保护;数据交易
DOI:10.19619/j.issn.1007-1938.2025.00.009
作者单位:中南财经政法大学知识产权学院
引文格式:叶悦.AI大模型时代出版内容数据保护的理据与进路[J].出版与印刷,2025(1):27-36.
在“人工智能+”和“数据要素×”的产业发展背景下,推进出版数据的保护对AI大模型产业发展和出版产业数智化转型均具有重要意义。2023年,国家数据局等部门印发《“数据要素×”三年行动计划(2024—2026年)》的通知,指出发挥数据要素的乘数效应,构建以数据为关键要素的经济。
2024年,中共中央网络安全和信息化委员会办公室等部门发布《信息化标准建设行动计划(2024—2027年)》指出要“推进重点领域高质量数据集建设”。数据是AI大模型产业发展的重要因素,当前相较于英文语料库而言中文语料库数据严重不足,存在数据获取违法性高、数据开发利用不足、数据保护与版权保护不协调等问题,严重制约着AI大模型产业的发展。[1]出版产业作为数据的供给端掌握着大量高质量的中文语料资源,因缺乏规范引导,此类资源的资产转化率以及供给效率仍然较低。现实中AI大模型无偿利用出版内容数据开展数据训练,严重损害了出版产业的利益。
围绕AI大模型数据训练,既有研究探讨了数据训练面临的法律风险,包括侵犯著作权[2]、侵犯个人信息权益[3]等。围绕出版数据保护,既有研究探讨了数据要素在出版领域的定位和应用[4]、融媒体语境下的数据出版问题[5]、数据出版产业平台的数据合规问题[6]等。关于出版数据的分类,有观点将出版数据分为“个体数据、经营数据、财务数据、业务数据”[7]四类,还有观点将出版数据分为“出版内容数据、用户行为数据、交互数据”[8]。
但在涉及出版商对出版内容数据享有何种权益,以及出版内容数据如何交易、交易后如何分配利益等细化的出版内容数据保护问题上,既有研究仍显不足。基于此,本文以AI大模型数据训练为视角,聚焦对出版产业而言具有行业专属性和高价值性优势的出版内容数据及其保护问题,论证出版内容数据保护的多维价值,剖析出版内容数据保护面临的多重困境,并在此基础上提出出版内容数据保护的多元路径。
一、AI大模型时代出版内容数据保护的多维价值
出版内容数据是出版数据的重要组成部分,出版内容数据资源化意味着出版内容数据由信息载体向独立生产要素转化。从出版产业链价值实现的角度出发,保护出版内容数据对产业链的供给端和需求端具有重要价值,将为大模型数据训练提供高质量数据集,推进出版产业数智化转型。AI大模型时代出版内容数据保护的价值具体体现为以下几点。
1.促使出版内容数据成为独立的生产要素
出版内容数据资源化是保护出版内容数据的逻辑前提。出版内容数据资源化是指将个别的、分散的出版相关信息,通过采集、标注、集成、汇聚、标准化等环节,形成可采、互通、可信的高质量出版数据资源。[9]出版内容数据资源化使得出版内容数据演变为独立的生产要素。在大模型语境下,面对海量的数据投喂,那些单一的或零散的出版内容,其边际价值几近于零,[10]但通过数据化处理,这些出版内容将转变为新的交易客体。
对出版内容数据提供专门的保护意味着将出版内容数据作为独立的生产要素进行保护。过去,出版产业在推进“资源数字化”方面取得显著成效,然而,“资源数字化”与“资源数据化”不完全相同,前者仅将“数据”视为信息内容的承载“介质”,后者将“数据”视为行业基底的“原材料”[11]。“出版内容数字化”聚焦于出版内容的信息层面,关联主体包括著作权人、出版商、网络服务提供商、消费者。在数智化时代,生成式人工智能对信息的应用方式发生转变,通过数据抓取、数据语料喂养、大模型训练等方式运用出版内容,由此催生出“出版内容数据化”的变革。“数据”已然超越消费者实际运用层面的“介质”属性,而成为可以被重复利用、单独交易流转的“生产要素”。“出版内容数据化”关注的是出版内容的生产要素属性,关联主体包括数据内容的提供者、数据收集者、数据持有者、数据使用者等。
2.有助
原创力文档


文档评论(0)