网站大量收购独家精品文档,联系QQ:2885784924

我国AI大模型数据集建设发展刍议.pdf

我国AI大模型数据集建设发展刍议.pdf

此“经济”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

我国AI大模型数据集建设发展刍议

我国AI大模型数据集建设

发展刍议

□/11*12

文张文娟,邓辉,艾政阳,唐彬

(1.国家计算机网络应急技术处理协调中心,北京100024;2.北京航空航天大学外国语学院,北京100191)

摘要:伴随生成式人工智能技术的加速演进,以大语言模型为代表的新兴技术已成为全球科

技竞争的新高地、未来产业的新赛道、经济发展的新引擎。当前,我国正处于发展新质生产

力的战略机遇期,作为新质生产力的核心关键技术,人工智能技术是否能够得到充分发展,

数据是必不可少的关键要素。然而,当前中文领域数据的种种不足也给我国生成式人工智能

技术发展带来种种挑战。本文旨在深入分析当前我国AI大模型数据集建设中具备的有利条件

以及面临的突出问题,结合当前政府和企业的应对举措,提出适应我国AI发展需要的对策建议。

关键词:人工智能;大模型;数据集;问题挑战;对策建议

中图分类号:D922.17;TP18文献标志码:A文章编号:2096-5036(2024)03-0085-11

DOI:10.16453/j.2096-5036.202429

0引言构,奠定了大模型预训练算法架构的基础。

2018年,OpenAI发布了GPT一代模型,后

近年来,以ChatGPT为代表的人工智能续逐年推出迭代版本模型。2022年,OpenAI

技术发展引领着新一轮科技革命和产业变革,推出ChatGPT,其拥有强大的自然语言交互

成为新一轮国际科技竞争的关键,不断催生新与生成能力。2023年,OpenAI多模态预训练

场景、新业态、新模式和新市场,改变了信息大模型GPT-4发布,其具备多模态理解与多类

和知识的生产方式,深刻影响了人类的生产生型内容生成能力。2024年,OpenAI发布视频

活方式[1]。语言大模型通过在海量无标注数据生成大模型Sora,提出时空碎片和扩散模型与

上进行大规模预训练,让模型学习大量知识并Transformer模型融合的技术,大模型的多模

进行指令微调,从而获得面向多任务的通用求态生成能力进一步成熟[3-7]。

解能力[2]。2017年,Google提出基于自注意我国同样高度重视人工智能发展,已初步

力机制的神经网络结构,即Transformer架形成一定规模的产业集群,特别是在数字化信

基金项目:本文系2021年国家社科基金重大项目“网络信息安全监管的法治体系构建研究”的阶段性成果(2021ZD194)。

85

思考与探讨

AI-VIEW

2024年第3期

息化基建方面具有后发优势。一方面,自20171我国AI大模型数据集建设具备的有

年发布《新一代人工智能发展规划》以来,相力条件及突出问题

继陆续出台了一系列扶持政策和法律法规,

不断加大在人工智能领域的政策引导和资金投优质数据集的建设对于大模型发展至关重

入,大力推进我国AI大模型技术研发应用和产要,世界各国正积极推动大模型数据集建设,

业发展,旨在建立世界领先的人工智能创新体中国作为全球最大的经济体之一,在数据集建

系[8]。另一方面,我国具有广阔的市场需求和设方面具有一定的优势地位。一是广泛的市场

应用场景,并具有丰富的云计算资源和海量的

文档评论(0)

新能源知识科普(本账号发布文档均来源于互联网公开资料,仅用于技术分享交流,相关版权为原作者所有。如果侵犯了您的相关权利,请提出指正,我们将立即删除相关资料)。

1亿VIP精品文档

相关文档