破解AI训练数据版权合法性之困.pdfVIP

破解AI训练数据版权合法性之困.pdf

专题故事专题故事FEATURESTORY

破解AI训练数据版权合法性之困

撰文|张平

人工智能（ArtificialIntel-输出等阶段往往面临版权合法性

ligence，AI）训练数据的版权合困境。

法性面临着多方面的挑战，主要为破解人工智能训练数据的

集中在高质量数据授权难、突破版权合法性之困，需采取多元

现行法律规定难两个方面。化、体系性的方案。第一，合法量数据的标准尚未达成一致，版

在内容获取、输入和输出的购买数据与合同约定风险。通权所有者与人工智能开发者之间

每个环节，未经授权许可的人工过事前购买高价值版权内容并签的权益平衡辩论仍在持续。

智能机器学习都存在较大的版权订授权合同明确风险承担，确保面对复杂的授权和利益分配

侵权风险。版权保护的基本原则人工模型合规发展。第二，通过难题，经济学家提出了建立互利

是事前授权、有偿使用，然而这集体管理组织解决授权难题。著的收益分享协议作为解决方案，

样传统的使用付费模式在人工智作权集体管理组织能够批量解决但过于复杂的经济学模型可能无

能海量学习的需求面前显得力不海量作品授权问题，提高效率并法有效解决一对一的授权问题。

从心，训练数据的合法性问题也减少交易成本。第三，通过爬虫为应对上述挑战，一种政策建议

成为全球之困。技术获得公共领域或者白名单数是创建有条件的共享训练数据

我国现行《著作权法》并未据。第四，利用开放授权的数据池，对权威来源的数据，如国家

针对数据训练设置专门的免责条资源。开放授权机制如知识共享图书馆、版本库等优质数字资源

款，致使人工智能研发者在开发协议能降低信息获取成本，促进进行整合和共享，可以提高数据

和训练模型时极易背负侵权“原创意产品交融分享，契合人工智的可用性和质量，在支持人工智

罪”。《生成式人工智能服务管理能发展需求。能技术健康发展的同时，为各参

暂行办法》要求人工智能服务提如何实现保护与发展的平衡与方提供合理的回报。

供者使用具有合法来源的数据和是推动人工智能发展的一个关键

模型，对其施加了相对严苛的合议题，高质量的数据是人工智能（作者系北京大学法学院教

规义务。由此，人工智能开发者发展的瓶颈之一。世界知识产权授、博士生导师）

和服务提供方在数据训练、数据组织等国际组织与各国对于高质

更多 >