网站大量收购闲置独家精品文档,联系QQ:2885784924

中国AIGC数据标注产业全景报告(2023).docx

中国AIGC数据标注产业全景报告(2023).docx

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

中国AIGC数据标注产业全景报告

PanoramicReportofGenerativeAIDataLabelingIndustryinChina

2023.11杨净量?位智库QbitAIInsights

序?

数据标注

数据标注,正迎来关键时刻。作为AI认识世界的起点,数据标注本质上是将现实世界信

息结构化、数字化

息结构化、数字化,充分发挥数据信息的价值。

?模型时代到来,AIGC众多垂直场景落地,以及通?智能、具?智能等前沿领域探索,

与?质量、

与?质量、专业化的场景数据密不可分,数据标注从劳动密集型加速朝着知识密集型转

型,?业壁垒进?步提?。

作为底层基础服务,数据标注贯穿?模型全?命周期(训练测试、评估验证和应?迭

代)。???,牵涉关键Know-how,更多?模型公司/AI企业选择?建标注团队和管线;

另???

另???,上下游合作关系将更为紧密和耦合,专业数据服务提供商更多机会将在垂直

领域,帮助企业完成私有化部署。

机遇与挑战并存。合成数据作为新衍?赛道,潜在市场空间巨?。与此同时,数据标注

标准难以统?、数据处理流程尚未规范,?学历多领域多专业成为标注?才的硬指标。

?录

?录

01

01?模型时代下的数据标注

02AIGC数据标注四?变化

03AIGC数据标注三?影响因素

04

04数据标注产业竞争格局/市场规模

05

05数据标注代表玩家案例集

!1

!1

?模型时代下的数据标注

?模型时代下的数据标注

数据标注是AI认识世界的起点

数据标注是将原始数据进?加?处理,?如分类、拉框、注释、标记等操作转换

数据标注是将原始数据进?加?处理,?如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。

国内数据标注?商,?义称之为基础数据服务提供商,通常需要完成数据集结构/流程设计、数据处理、数据质检等?作,为下游客?提供通?数据集、定制化服务、数据闭环?具链等。这也是本次AIGC数据标注全景报告的研究对象。

?般数据处理流程:根据原始数据类型以及训练任务划分:

模型训练测试/验证

模型训练测试/验证

数据标注

数据清洗

数据质检

原始数据

数据标注中的??定律

通常在一个AI项目中,数据准备工作需要80%时长,模型训练和部署仅占20%。

n?本:

词性标注、分类标注、情绪标注、命名实体识别、语义标注、

意图标注等;n图像:

图像分类、语义分割、实例分割、拉框、OCR转写等;n?频:

语?识别、声纹识别、语?转写等;n视频:

?标跟踪、?为识别等;

n3D点云

?模型时代下的数据标注

上市公司股价狂飙,创业公司融资加速

海天瑞声是国内唯??家AI数据上市公司,今年2?以来股价受ChatGPT热潮曾?度狂飙,截?11?10?股价较年初上涨59.75%。

创业代表公司融资情况

创业代表公司融资情况

星尘数据|22年12?5000万A轮

标?科技|23年4?超亿元B2轮

整数智能|23年6?数千万PreA轮柏川数据|23年7?千万元天使轮

曼孚科技|23年9?数千万B轮恺望数据|23年4?战略融资

23年9?数千万PreA轮

?模型数据解决?案多处开花,以?站式、定制化服务为主

围绕?模型开发全?命周期(包括预训练、监督微调、RLHF、红队测试、基准测试等),专业数据服务商、?模型企业、AI公司等各?都拿出相关数据解决?案,?部分以?站式、定制化服务为主。

?云测数据:?向垂直?业?模型数据解决?案

?星尘数据:星尘COSMO?模型数据?字塔解决?案

?澳鹏Appen:AI聊天反馈和基准测试两?解决?案

???引擎:????(涵盖数据服务模块)

?百度:?个?模型数据标注基地

?模型范式涌?数据标注,?动化标注?槛?幅降低

以SAM模型为代表的图像分割模型开源;GPT-4、GPT-4V为代表的?模型也被验证在?本、图像领域标注具有可?性,并衍?出专?做数据标注的?模型,?幅降低?动化标注?槛。国内不少数据服务商进?相关?模型研发,部分产品已经发布:

?海天瑞声:数据?产垂直?模型(研发阶段)

?曼孚科技:?动驾驶数据标注视觉?模型(已完成研发)

??猫数据:?动驾驶?模型AutopilotGPT

您可能关注的文档

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档