浅析AI大模型训练数据来源与版权挑战.docxVIP

下载本文档

37
0
约3.05万字
约 34页
2024-08-11 发布于北京
举报
版权申诉

浅析AI大模型训练数据来源与版权挑战.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

目录索引

TOC\o1-2\h\z\u投资要点 5

一、大模型常使用文本图片视频等公共数据集混合体作为预训练语料库 8

（一）数据成为影响AI大模型效果的重要差异化环节 8

（二）AI大模型训练数据来源分类 12

（三）AI大模型训练数据获取途径 19

二、AI大模型训练面临的数据版权挑战 20

（一）训练数据需求下，数据版权诉讼激增 20

（二）授权合作，内容持有者的新道路 23

（三）诉讼或合作？内容持有者面临的选择、机会与挑战 27

三、AI巨头将持续加码数据合作，需关注数据版权纠纷重点案例 29

（一）数据版权纠纷尚无判例，需关注重点案例 29

（二）AI巨头将持续加码数据合作，确保数据的合法来源 31

四、投资建议 34

五、风险提示 36

（一）内容价值难以准确量化 36

（二）行业竞争加剧 36

（三）数据侵权阻碍下游应用进展 36

图表索引

图1：大模型的技术路径多集中在Transformer架构衍生出的三大技术路线 9

图2：ScalingLaw提出大模型的性能主要与计算量、训练数据量和模型参数量三者的大小相关 10

图3：部分经典模型的参数量与训练数据量之间的关系 10

图4：AI大模型的训练数据集在规模和质量上逐渐提升 11

图5：大语言模型分阶段训练数据来源 13

图6：部分经典大语言模型所使用的训练数据组成情况 16

图7：Pile数据集组成分类 17

图8：由CommonCrawl数据集得到RefinedWeb数据集的Pipeline过程 17

图9：《纽约时报》提供的ChatGPT输出文本与该报文章类似的例子 21

图10：Getty的原始图片和由StableDiffusion生成的带有Getty商标的图片

..............................................................................................................................22

图11：C4数据集拆分 23

图12：美国民事诉讼流程 29

表1：GPT系列大模型的训练数据集截止时间及模型推出时间梳理 11

表2：Model-CentricAI与Data-CentricAI对比 12

表3：部分模型所使用的训练数据分类 14

表4：大模型常用的公开数据集 18

表5：AI训练数据版权诉讼统计 20

表6：AI公司与内容持有方的授权合作案例 25

表7：不同行业属性文本类数据集比较 26

表8：纽约时报与OpenAI、微软的诉讼时间轴 30

表9：混合的文本数据集前50个域排名 31

表10：部分海外AI初创公司主营与融资信息 34

投资要点

训练数据是构建和优化AI模型的基石，大模型常使用文本图片视频等公共数据集混合体作为预训练语料库。

在算力可获得性提升以及算法同质化趋势下，训练数据成为影响大模型性能的重要因素。具体而言，训练数据可以从数据规模、数据质量和数据即时性等方面对模型的训练效果产生影响。伴随着AI大模型的发展，训练数据集在规模和质量上也逐渐提升。目前，AI领域正经历从以模型为中心到以数据为中心的转变。

区别于传统的AI模型训练，大语言模型常使用维基百科、书籍期刊、论坛等多样化的公共文本数据集的混合体作为预训练语料库，而多模态大模型则需要大规模的图片、视频和语音等多模态训练数据。这些训练数据的获取方式多种多样，主要包含公开渠道、企业自研、直接购买和合作交换等方式。

内容持有者针对AI平台提出的数十起版权诉讼正在进行中，另一部分则走上了授权合作道路。

目前，众多内容持有者正在针对AI平台提出各种维权诉求，有数十起AI训练数据版权诉讼正在进行中，指控AI厂商因使用受版权保护的内容进行训练，其中原告来自各行各业，包括作家、音乐出版商和新闻媒体等，以集体诉讼为主。

版权纠纷实质上是商业利益之争，各大巨头争夺的重点在于背后的经济利益。尽管生成式AI发展浪潮不可阻挡，传统内容持有者仍希望在这一过程中获得更有利的筹码，以避免被时代淘汰。

另一部分内容持有者则走上了授权合作道路，OpenAI、苹果、谷歌等公司与内容持有者签署了数十个内容许可协议，并有许多协议正在洽谈中。授权合作不仅可以为内容持有者带来与诉讼和解相当甚至更多的现金收益，而且速度更快，同时有助于将AI应用于其业务优化。而AI公司通过合作可以获取高质量的训练数据以改进模型效果，并避免侵犯版权。因此，这种合作对

浅析AI大模型训练数据来源与版权挑战.docx 原文免费试下载