全球及中国数据标注行业市场现状分析.pdfVIP

全球及中国数据标注行业市场现状分析.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

全球及中国数据标注行业市场现状分析

一、数据标注行业概况

数字经济是全球新一轮科技和产业革命最典型的标志,其中最关

键的动力来自人工智能等前沿技术的创新突破。近年来,得益于人工

智能的兴起,数据标注产业应运而生,它主要是根据人工智能企业的

要求,对图像、声音、文字等进行不同方式的标注,从而为人工智能

企业提供大量的数据供机器训练和学习。发展数据标注产业,对我省

绿色健康发展转型,有着重大现实意义。

目前数据标注有3种常用的划分方式:(1)按照标注对象进行分类,

包括图像标注、视频标注、语音标注和文本标注;(2)根据标注的构

成形式,将其分为结构化标注非结构化标注和半结构化标注(3)根据

标注者类型,分为人工标注和机器标注:

数据标注产业的发展,促进了人工智能的蓬勃兴起,其主要的应

用行业和不同行业的标注场景总结如下:

二、全球数据产生现状分析

近年来,全球数据量依然增长迅速,据统计,2019年全球数据产

量为41ZB,同比增长24.24%,预计2020年全球数据产生量约为47ZB。

从全球数据标注处理容量需求空间来看,目前市场上有1%的数据

能被收集保存下来,据统计,2019年全球数据标注处理容量需求量

为378EB,同比增长24.34%,预计2020年全球数据标注处理容量需

求空间约为433EB。

三、中国数据标注行业市场现状分析

数据标注行业的发展带动了中国许多城市和城镇的就业,促使中

国逐渐成为世界数据标注的中心,据统计,2019年我国数据标注行

业市场规模达到30.9亿元,同比增长19.31%,预计到2025年我国数

据标注行业市场规模将突破100亿元。

从各类型数据标注市场来看,2019年我国图像类数据标注市场占

比最高,占比49.7%,其次是语音类数据标注市场,占比39.1%,NLP

类数据标注市场占比11.2%。

从我国数据标注需求相关企业区域分布来看,据统计,2020年4

月我国数据标注相关企业数量为565家,截至2020年12月增长至

705家,其中企业数量排名前五的分别是北京市、上海市、成都市、

深圳市与杭州市。

投融资方面,2020年我国数据标注行业投融资事件数量为6起,

在新冠疫情的影响下热度依然未减少,截至2021年4月我国数据标

注行业投融资事件数量为2起。

目前,语音标注质量评估算法主要有词错误率(worderrorrate,简

称WER)算法和句子错误率(sentenceerrorrate,简称SER)算法。词错

误率表示为了让识别出来的词序列和标准的词序列之间保持一致,而

需要进行替换、删除或者插入的某些词。各数据标注质量评估算法对

比如下:

四、中国数据标注行业竞争格局分析

目前我国数据标注行业参与企业主要分为三个梯队,其中第一梯

队头部企业主要有京东(京东众智)、百度(百度众测)、腾讯、阿

里(阿里数据标注);第二梯队中部企业主要有龙猫数据、Testin云

测、倍赛BasicFinder、数据堂;第三梯队主要为其他广大中小型企业。

五、数据标注行业发展趋势

1、细化数据标注任务

随着人工智能技术在一些行业的广泛应用,这些行业原有的数据

标注任务已经不再满足业务需求。以智能安防为例,为了促进智能安

防系统从传统的被动防御走向智能化的主动预警,一些新的数据标注

任务也应运而生。例如,当一个神情紧张或者头戴面罩的小偷手握一

根棍子准备翻越小区外墙企图实施盗窃行为时,安防系统应该马上启

动报警系统,并及时向安防人员发出警告,以保障住户的财产安全。

实现异常情况预警的新标注任务,包括表情标注、危险品标注和行为

标注,利用这些数据标注就能帮助安防系统识别紧张的表情、违法的

面罩和违规的翻越行为以及可能的凶器——棍子。从技术角度来看,

新标注任务为异常行为的识别与建模提供了高质量的训练数据,也有

利于提高模型训练的准确性。因此,针对特定的行业需求细化标注任

务,将是今后数据标注的一个发展趋势。

2、半自动化数据标注工具的研发

随着AI技术的发展,数据标注工具需要从只支持人工标注逐渐转

化为人工标注+AI辅助标注的方法。其基本思路为:基于以往的标注,

可以通过AI模型对数据进行预处理,然后由标注人员在此基础上做

一些校正。以图像标注为例,标注工具首先通过预训练的语义分割模

型来处

文档评论(0)

153****9248 + 关注
实名认证
文档贡献者

专注于中小学教案的个性定制:修改,审批等。本人已有6年教写相关工作经验,具有基本的教案定制,修改,审批等能力。可承接教案,读后感,检讨书,工作计划书等多方面的工作。欢迎大家咨询^

1亿VIP精品文档

相关文档