数据标注产业的发展现状、现实挑战与政策建议.pdfVIP

  • 4
  • 0
  • 约1.06万字
  • 约 6页
  • 2026-01-13 发布于福建
  • 举报

数据标注产业的发展现状、现实挑战与政策建议.pdf

数据标注产业的发展现状、

现实挑战与政策建议

王山

数据标注在推动数据资源汇聚、提升数据质量、释放数据要素价值中具

【内容提要】

有重要作用。加快推动数据标注产业高质量发展,有助于提升人工智能数据领域的核

心竞争力。中国数据标注产业高质量发展面临传统数据标注模式转型滞后、标准规范

体系建设迟缓、数据标注成本高昂、自动化数据标注与隐私保护难以平衡、复合型人

才短缺五大挑战。应创新数据标注模式、加速数据标注标准规范体系建设、优化数据

标注资源配置、加强数据安全管理、搭建数据标注人才培养体系。

【关键词】数据标注数据要素高质量发展

人工智能

中图分类号:F062.9

9文献标识码:A

2024年5月,国家数据局在第七届数字中5.8万人,带动数据标注行业相关产值超过83亿

国建设峰会上公布了首批承担数据标注基地建元。数据标注是人工智能和机器学习领域中不

设任务的7个城市,分别是成都、沈阳、合肥、可或缺的一环,核心任务是对各种原始数据(如

长沙、海口、保定、大同,这一举措标志着数图像、文本、语音或视频)进行精确分类、标

据标注已上升至国家战略高度。目前,全国已记和注释,为算法模型提供必要的“学习答案”,

形成医疗、工业、教育等行业的高质量数据集提升数据的可用性、模型的训练效率与预测精

335个,赋能121个国产人工智能大模型研发,度,促使数据从“沉睡的资源”转变为可高效

引进和培育标注企业223家,标注从业人员达流通的“生产要素”。加快推动数据标注产业

*基金项目:中国社会科学院数据库建设专项“习近平经济思想研究学术阐释数据库”(项目编号:2024SJK007)。

智库报告

高质量发展,不仅有助于构筑中国在人工智能的需求。广义层面,数据标注工作已经不再局

数据领域的先发优势,还能为提升国际数据治限于简单的标注行为,而是逐步发展成为以标

理话语权、抢占数字经济制高点提供坚实保障。注为核心,涵盖数据采集、标注技术、专业工

具、服务平台、人力众包到解决方案等多种人

一、数据标注的起源及发展

工智能基础数据服务体系,通过对语音、图片、

(一)数据标注起源于人工智能,是数据文本、视频等原始数据进行采集、清洗、标注、

要素价值释放的关键所在质检等加工处理,为人工智能提供高质量的数

2007年,用于视觉对象识别软件研究的大据集,推动人工智能技术创新和产业发展。

型可视化数据库(ImageNet)项目借助亚马逊土(三)数据标注产业经历了从野蛮生长向

耳其机器人(MechanicalTurk)众包平台,成功专业化发展的转变

构建了一个规模庞大的ImageNet数据集,为机2007—2016年,数据标注产业处于起步阶

器学习发展提供了极其丰富的数据“养料”,段,标注任务以常识性标注为主,主要依靠人

是数据标注的真正开端。这一创新性实践促使力手动完成,由于技术手段的匮乏和市场认知

业界开始认识到数据的重要性,焦点从单纯关注的局限,产业整体门槛较低,呈现“野蛮生长”

算法模型的改进转向更加注重数据质量的提升。

这种从以“模型为中心”到以“数据为中心”的猛发展,知名开源标注工具(LabelStudio等)

理念转变深刻影响了人工智能的研究方向和技以及商用标注平台(Sc

文档评论(0)

1亿VIP精品文档

相关文档