- 4
- 0
- 约1.06万字
- 约 6页
- 2026-01-13 发布于福建
- 举报
数据标注产业的发展现状、
现实挑战与政策建议
王山
数据标注在推动数据资源汇聚、提升数据质量、释放数据要素价值中具
【内容提要】
有重要作用。加快推动数据标注产业高质量发展,有助于提升人工智能数据领域的核
心竞争力。中国数据标注产业高质量发展面临传统数据标注模式转型滞后、标准规范
体系建设迟缓、数据标注成本高昂、自动化数据标注与隐私保护难以平衡、复合型人
才短缺五大挑战。应创新数据标注模式、加速数据标注标准规范体系建设、优化数据
标注资源配置、加强数据安全管理、搭建数据标注人才培养体系。
【关键词】数据标注数据要素高质量发展
人工智能
中图分类号:F062.9
9文献标识码:A
2024年5月,国家数据局在第七届数字中5.8万人,带动数据标注行业相关产值超过83亿
国建设峰会上公布了首批承担数据标注基地建元。数据标注是人工智能和机器学习领域中不
设任务的7个城市,分别是成都、沈阳、合肥、可或缺的一环,核心任务是对各种原始数据(如
长沙、海口、保定、大同,这一举措标志着数图像、文本、语音或视频)进行精确分类、标
据标注已上升至国家战略高度。目前,全国已记和注释,为算法模型提供必要的“学习答案”,
形成医疗、工业、教育等行业的高质量数据集提升数据的可用性、模型的训练效率与预测精
335个,赋能121个国产人工智能大模型研发,度,促使数据从“沉睡的资源”转变为可高效
引进和培育标注企业223家,标注从业人员达流通的“生产要素”。加快推动数据标注产业
*基金项目:中国社会科学院数据库建设专项“习近平经济思想研究学术阐释数据库”(项目编号:2024SJK007)。
智库报告
高质量发展,不仅有助于构筑中国在人工智能的需求。广义层面,数据标注工作已经不再局
数据领域的先发优势,还能为提升国际数据治限于简单的标注行为,而是逐步发展成为以标
理话语权、抢占数字经济制高点提供坚实保障。注为核心,涵盖数据采集、标注技术、专业工
具、服务平台、人力众包到解决方案等多种人
一、数据标注的起源及发展
工智能基础数据服务体系,通过对语音、图片、
(一)数据标注起源于人工智能,是数据文本、视频等原始数据进行采集、清洗、标注、
要素价值释放的关键所在质检等加工处理,为人工智能提供高质量的数
2007年,用于视觉对象识别软件研究的大据集,推动人工智能技术创新和产业发展。
型可视化数据库(ImageNet)项目借助亚马逊土(三)数据标注产业经历了从野蛮生长向
耳其机器人(MechanicalTurk)众包平台,成功专业化发展的转变
构建了一个规模庞大的ImageNet数据集,为机2007—2016年,数据标注产业处于起步阶
器学习发展提供了极其丰富的数据“养料”,段,标注任务以常识性标注为主,主要依靠人
是数据标注的真正开端。这一创新性实践促使力手动完成,由于技术手段的匮乏和市场认知
业界开始认识到数据的重要性,焦点从单纯关注的局限,产业整体门槛较低,呈现“野蛮生长”
算法模型的改进转向更加注重数据质量的提升。
这种从以“模型为中心”到以“数据为中心”的猛发展,知名开源标注工具(LabelStudio等)
理念转变深刻影响了人工智能的研究方向和技以及商用标注平台(Sc
原创力文档

文档评论(0)