科技行业：AI大模型需要什么样的数据(202305).pdfVIP

下载本文档

0
0
约13.11万字
约 41页
2024-12-19 发布于北京
举报
版权申诉

科技行业：AI大模型需要什么样的数据(202305).pdf

1、本文档共41页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

证券研究报告

科技

AI大模型需要什么样的数据

华泰研究

2023年5月11日│中国内地专题研究

数据是大模型竞争关键要素之一，关注中国AI大模型数据发展

AI的突破得益于高质量数据，我们认为数据是大模型竞争关键要素之一：1）

训练大模型需要高质量、大规模、多样性的数据集；2）优质中文数据集稀

缺，数字中国战略将促进数据要素市场完善，助力数据集发展。近期欧洲议

会议员《人工智能法案》提案、网信办《生成式人工智能服务管理办法（征

求意见稿）》对大模型训练数据的版权披露、合法性提出要求，对于数据产

业链的投资机会，我们认为：1）数据资产储备公司的商业化进程值得关注；

2）行业数据价值高，具有优质数据和一定大模型能力的公司或通过行业大

模型赋能业务；3）关注卡位优质客户、技术降低人力成本的数据服务企业。

海外开源数据集积累丰富，合成数据或将缓解高质量数据耗尽隐忧

我们梳理了海外主要的开源语言和多模态数据集，主要的发布方包括高校、

互联网巨头研究部门、非盈利研究组织以及政府机构。我们认为海外积累丰

富的开源高质量数据集得益于：1）相对较好的开源互联网生态；2）免费线

上书籍、期刊的长期资源积累；3）学术界、互联网巨头研究部门、非盈利

研究组织及其背后的赞助基金形成了开放数据集、发表论文-被引用的开源

氛围。然而，高质量语言数据或于2026年耗尽，AI合成数据有望缓解数据

耗尽的隐忧，Gartner预测2030年大模型使用的绝大部分数据或由AI合成。

中文开源数据集数量少、规模小，看好数字中国战略激活数据要素产业链

与国外类似，国内大模型的训练数据包括互联网爬取数据、书籍期刊、公司

自有数据以及开源数据集等。就开源数据集而言，国内外的发布方都涵盖高

校、互联网巨头、非盈利机构等组织。但国内开源数据集数量少、规模小，

因此国内大模型训练往往使用多个海外开源数据集。国内缺乏高质量数据集

的原因在于：1）高质量数据集需要高资金投入；2）相关公司开源意识较低；

3）学术领域中文数据集受重视程度低。看好数字中国战略助力国内数据集

发展：1）各地数据交易所设立运营提升数据资源流通；2）数据服务商链接

数据要素产业链上下游，激活数据交易流通市场，提供更多样化的数据产品。

数据产业链投资机会：关注数据生产与处理环节

数据产业链包括生产、处理等环节。我们认为数据生产可以分为通用数据和

行业数据：1）海外主要数据集的通用数据来自维基、书籍期刊、高质量论

坛，国内相关公司包括文本领域的百度百科、中文在线、中国科传、知乎等，

以及视觉领域的视觉中国等。2）数据是垂直行业企业的护城河之一，相关

公司包括城市治理和ToB行业应用领域的中国电信、中国移动、中国联通，

CV领域的海康、大华等。数据处理环节，模型研发企业的外包需求强烈，

利好卡位优质客户、技术赋能降低人力成本的数据服务企业，如Appen、

TelusInternational、ScaleAI。

隐私保护：监管与技术手段并举

个人数据的采集、存储和处理引发了对于AI时代数据隐私保护的关注。隐

私保护可从监管、技术角度着手：1）监管：全球各地区出台相关法律法规，

例如《中华人民共和国个人信息保护法》、欧盟《通用数据保护条例》等。2）

技术：隐私保护计算在不泄露原始数据的前提下，对数据进行处理和使用。

风险提示：AI及技术落地不及预期；本研报中涉及到未上市公司或未覆盖个

股内容，均系对其客观公开信息的整理，并不代表本研究团队对该公司、该

股票的推荐或覆盖。

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

正文目录

AI大模型需要什么样的数据集5

数据将是未来AI大模型竞争的关键要素5

数据集如何产生7

您可能关注的文档

文档评论（0）

YLY + 关注: 实名认证

文档贡献者

专业研报提供，接定制

咨询Ta 进入空间

1亿VIP精品文档

更多 >

科技行业：AI大模型需要什么样的数据(202305).pdfVIP