- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
我国AI大模型数据集建设发展刍议
我国AI大模型数据集建设
发展刍议
□/11*12
文张文娟,邓辉,艾政阳,唐彬
(1.国家计算机网络应急技术处理协调中心,北京100024;2.北京航空航天大学外国语学院,北京100191)
摘要:伴随生成式人工智能技术的加速演进,以大语言模型为代表的新兴技术已成为全球科
技竞争的新高地、未来产业的新赛道、经济发展的新引擎。当前,我国正处于发展新质生产
力的战略机遇期,作为新质生产力的核心关键技术,人工智能技术是否能够得到充分发展,
数据是必不可少的关键要素。然而,当前中文领域数据的种种不足也给我国生成式人工智能
技术发展带来种种挑战。本文旨在深入分析当前我国AI大模型数据集建设中具备的有利条件
以及面临的突出问题,结合当前政府和企业的应对举措,提出适应我国AI发展需要的对策建议。
关键词:人工智能;大模型;数据集;问题挑战;对策建议
中图分类号:D922.17;TP18文献标志码:A文章编号:2096-5036(2024)03-0085-11
DOI:10.16453/j.2096-5036.202429
0引言构,奠定了大模型预训练算法架构的基础。
2018年,OpenAI发布了GPT一代模型,后
近年来,以ChatGPT为代表的人工智能续逐年推出迭代版本模型。2022年,OpenAI
技术发展引领着新一轮科技革命和产业变革,推出ChatGPT,其拥有强大的自然语言交互
成为新一轮国际科技竞争的关键,不断催生新与生成能力。2023年,OpenAI多模态预训练
场景、新业态、新模式和新市场,改变了信息大模型GPT-4发布,其具备多模态理解与多类
和知识的生产方式,深刻影响了人类的生产生型内容生成能力。2024年,OpenAI发布视频
活方式[1]。语言大模型通过在海量无标注数据生成大模型Sora,提出时空碎片和扩散模型与
上进行大规模预训练,让模型学习大量知识并Transformer模型融合的技术,大模型的多模
进行指令微调,从而获得面向多任务的通用求态生成能力进一步成熟[3-7]。
解能力[2]。2017年,Google提出基于自注意我国同样高度重视人工智能发展,已初步
力机制的神经网络结构,即Transformer架形成一定规模的产业集群,特别是在数字化信
基金项目:本文系2021年国家社科基金重大项目“网络信息安全监管的法治体系构建研究”的阶段性成果(2021ZD194)。
85
思考与探讨
AI-VIEW
2024年第3期
息化基建方面具有后发优势。一方面,自20171我国AI大模型数据集建设具备的有
年发布《新一代人工智能发展规划》以来,相力条件及突出问题
继陆续出台了一系列扶持政策和法律法规,
不断加大在人工智能领域的政策引导和资金投优质数据集的建设对于大模型发展至关重
入,大力推进我国AI大模型技术研发应用和产要,世界各国正积极推动大模型数据集建设,
业发展,旨在建立世界领先的人工智能创新体中国作为全球最大的经济体之一,在数据集建
系[8]。另一方面,我国具有广阔的市场需求和设方面具有一定的优势地位。一是广泛的市场
应用场景,并具有丰富的云计算资源和海量的
您可能关注的文档
- ChatGPT与人类个体情感反应的趋同与偏离:基于社会评价的对比研究.pdf
- ChatGPT大模型下国际中文教师AI素养的内涵、框架及提升策略.pdf
- IPv6在AI和大模型背景下如何加速演进.pdf
- Sora与未来叙事:AI如何颠覆内容创作.pdf
- Sora引领生成式AI变革.pdf
- “四化”转型:AI赋能体育课堂精准化教学的应用探索.pdf
- 一种基于AI的计算机网络安全防御系统设计.pdf
- 两种会议论文解读视频的对比分析与实践.pdf
- 中国智慧司法的实践样态与角色期待.pdf
- 乳腺AI、超声联合MRI在乳腺结节BI-RADS分类中的效能.pdf
- 中考语文复习专题二整本书阅读课件.ppt
- 中考语文复习积累与运用课件.ppt
- 2025年初中学业水平考试模拟试题(二)课件.ppt
- 四川省2015届理科综合试题48套第12套.pdf
- 【课件】战争与和平—美术作品反映战争+课件-2024-2025学年高中美术湘美版(2019)美术鉴赏.pptx
- 【课件】青春牢筑国家安全防线 课件 2024-2025学年高中树立总体国家安全观主题班会.pptx
- 【课件】原始人的创造+课件高中美术湘美版(2019)美术鉴赏.pptx
- 上海证券-美容护理行业周报:流量加快去中心化,强运营头部品牌影响较小 -2024-.pdf
- T_CSEIA 1005—2023_能源工业互联网平台数据治理要求.pdf
- T_CDSA 504.16-2023_急流救援技术培训与考核要求.pdf
最近下载
- 1.1+磁场对通电导线的作用力(安培力)说课课件-2024-2025学年高二下学期物理人教版(2019)选择性必修第二册.pptx
- (新)初中历史中考总复习思维导图汇总.docx VIP
- 《天一阁登科錄中的明代进士户籍分析》.pdf
- 基于Arduino的实验室安防监测系统设计.doc
- 初中历史《中考必备的20张思维导图》.docx VIP
- 超长结构膨胀加强带连续无缝施工方案.doc VIP
- 2024年浙江省杭州市上城区行政服务中心招聘6人历年公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版.docx
- 麻黄鸡种鸡饲养技术规程.pdf VIP
- 《中文版AutoCAD 2022基础与应用项目教程》全套教学课件.pptx
- 出院患者随访制度和流程.doc
- 乡村振兴、双碳、储能、绿色金融 + 关注
-
实名认证服务提供商
新能源知识科普(本账号发布文档均来源于互联网公开资料,仅用于技术分享交流,相关版权为原作者所有。如果侵犯了您的相关权利,请提出指正,我们将立即删除相关资料)。
文档评论(0)