- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
证券研究报告
科技
AI大模型需要什么样的数据
华泰研究
2023年5月11日│中国内地专题研究
数据是大模型竞争关键要素之一,关注中国AI大模型数据发展
AI的突破得益于高质量数据,我们认为数据是大模型竞争关键要素之一:1)
训练大模型需要高质量、大规模、多样性的数据集;2)优质中文数据集稀
缺,数字中国战略将促进数据要素市场完善,助力数据集发展。近期欧洲议
会议员《人工智能法案》提案、网信办《生成式人工智能服务管理办法(征
求意见稿)》对大模型训练数据的版权披露、合法性提出要求,对于数据产
业链的投资机会,我们认为:1)数据资产储备公司的商业化进程值得关注;
2)行业数据价值高,具有优质数据和一定大模型能力的公司或通过行业大
模型赋能业务;3)关注卡位优质客户、技术降低人力成本的数据服务企业。
海外开源数据集积累丰富,合成数据或将缓解高质量数据耗尽隐忧
我们梳理了海外主要的开源语言和多模态数据集,主要的发布方包括高校、
互联网巨头研究部门、非盈利研究组织以及政府机构。我们认为海外积累丰
富的开源高质量数据集得益于:1)相对较好的开源互联网生态;2)免费线
上书籍、期刊的长期资源积累;3)学术界、互联网巨头研究部门、非盈利
研究组织及其背后的赞助基金形成了开放数据集、发表论文-被引用的开源
氛围。然而,高质量语言数据或于2026年耗尽,AI合成数据有望缓解数据
耗尽的隐忧,Gartner预测2030年大模型使用的绝大部分数据或由AI合成。
中文开源数据集数量少、规模小,看好数字中国战略激活数据要素产业链
与国外类似,国内大模型的训练数据包括互联网爬取数据、书籍期刊、公司
自有数据以及开源数据集等。就开源数据集而言,国内外的发布方都涵盖高
校、互联网巨头、非盈利机构等组织。但国内开源数据集数量少、规模小,
因此国内大模型训练往往使用多个海外开源数据集。国内缺乏高质量数据集
的原因在于:1)高质量数据集需要高资金投入;2)相关公司开源意识较低;
3)学术领域中文数据集受重视程度低。看好数字中国战略助力国内数据集
发展:1)各地数据交易所设立运营提升数据资源流通;2)数据服务商链接
数据要素产业链上下游,激活数据交易流通市场,提供更多样化的数据产品。
数据产业链投资机会:关注数据生产与处理环节
数据产业链包括生产、处理等环节。我们认为数据生产可以分为通用数据和
行业数据:1)海外主要数据集的通用数据来自维基、书籍期刊、高质量论
坛,国内相关公司包括文本领域的百度百科、中文在线、中国科传、知乎等,
以及视觉领域的视觉中国等。2)数据是垂直行业企业的护城河之一,相关
公司包括城市治理和ToB行业应用领域的中国电信、中国移动、中国联通,
CV领域的海康、大华等。数据处理环节,模型研发企业的外包需求强烈,
利好卡位优质客户、技术赋能降低人力成本的数据服务企业,如Appen、
TelusInternational、ScaleAI。
隐私保护:监管与技术手段并举
个人数据的采集、存储和处理引发了对于AI时代数据隐私保护的关注。隐
私保护可从监管、技术角度着手:1)监管:全球各地区出台相关法律法规,
例如《中华人民共和国个人信息保护法》、欧盟《通用数据保护条例》等。2)
技术:隐私保护计算在不泄露原始数据的前提下,对数据进行处理和使用。
风险提示:AI及技术落地不及预期;本研报中涉及到未上市公司或未覆盖个
股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该
股票的推荐或覆盖。
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。
正文目录
AI大模型需要什么样的数据集5
数据将是未来AI大模型竞争的关键要素5
数据集如何产生7
您可能关注的文档
- 可持续发展的绿色生态大数据产业园区研究.pdf
- 可信机器学习报告(EN).pdf
- 快递行业2023年中期策略报告:产业升级是驱动力,差异化竞争是关键(202304).pdf
- 罗戈网-物流企业零(低)碳实践-徐榆然(202305).pdf
- 氯碱行业消毒液产业链梳理报告:疫情对消毒液行业影响几何?(202002).pdf
- 钠电池成本测算专题:23年或开始具备性价比.pdf
- 防诈骗心得体会精选15篇.pdf
- 食品加工小作坊申请书示范文本(面条) 宁波市质量技术监督局镇海 ....pdf
- 小学教育课题申报书:新时代背景下小学劳动教育有效实施策略研究.pdf
- 人教版三年级数学下册第八单元广角搭配(二)单元备课策略集体备课解读稿.pdf
文档评论(0)