- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
中国AIGC数据标注产业全景报告
PanoramicReportofGenerativeAIDataLabelingIndustryinChina
2023.11杨净量?位智库QbitAIInsights
序?
数据标注
数据标注,正迎来关键时刻。作为AI认识世界的起点,数据标注本质上是将现实世界信
息结构化、数字化
息结构化、数字化,充分发挥数据信息的价值。
?模型时代到来,AIGC众多垂直场景落地,以及通?智能、具?智能等前沿领域探索,
与?质量、
与?质量、专业化的场景数据密不可分,数据标注从劳动密集型加速朝着知识密集型转
型,?业壁垒进?步提?。
作为底层基础服务,数据标注贯穿?模型全?命周期(训练测试、评估验证和应?迭
代)。???,牵涉关键Know-how,更多?模型公司/AI企业选择?建标注团队和管线;
另???
另???,上下游合作关系将更为紧密和耦合,专业数据服务提供商更多机会将在垂直
领域,帮助企业完成私有化部署。
机遇与挑战并存。合成数据作为新衍?赛道,潜在市场空间巨?。与此同时,数据标注
标准难以统?、数据处理流程尚未规范,?学历多领域多专业成为标注?才的硬指标。
?录
?录
01
01?模型时代下的数据标注
02AIGC数据标注四?变化
03AIGC数据标注三?影响因素
04
04数据标注产业竞争格局/市场规模
05
05数据标注代表玩家案例集
!1
!1
?模型时代下的数据标注
?模型时代下的数据标注
数据标注是AI认识世界的起点
数据标注是将原始数据进?加?处理,?如分类、拉框、注释、标记等操作转换
数据标注是将原始数据进?加?处理,?如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。
国内数据标注?商,?义称之为基础数据服务提供商,通常需要完成数据集结构/流程设计、数据处理、数据质检等?作,为下游客?提供通?数据集、定制化服务、数据闭环?具链等。这也是本次AIGC数据标注全景报告的研究对象。
?般数据处理流程:根据原始数据类型以及训练任务划分:
模型训练测试/验证
模型训练测试/验证
数据标注
数据清洗
数据质检
原始数据
数据标注中的??定律
通常在一个AI项目中,数据准备工作需要80%时长,模型训练和部署仅占20%。
n?本:
词性标注、分类标注、情绪标注、命名实体识别、语义标注、
意图标注等;n图像:
图像分类、语义分割、实例分割、拉框、OCR转写等;n?频:
语?识别、声纹识别、语?转写等;n视频:
?标跟踪、?为识别等;
n3D点云
?模型时代下的数据标注
上市公司股价狂飙,创业公司融资加速
海天瑞声是国内唯??家AI数据上市公司,今年2?以来股价受ChatGPT热潮曾?度狂飙,截?11?10?股价较年初上涨59.75%。
创业代表公司融资情况
创业代表公司融资情况
星尘数据|22年12?5000万A轮
标?科技|23年4?超亿元B2轮
整数智能|23年6?数千万PreA轮柏川数据|23年7?千万元天使轮
曼孚科技|23年9?数千万B轮恺望数据|23年4?战略融资
23年9?数千万PreA轮
?模型数据解决?案多处开花,以?站式、定制化服务为主
围绕?模型开发全?命周期(包括预训练、监督微调、RLHF、红队测试、基准测试等),专业数据服务商、?模型企业、AI公司等各?都拿出相关数据解决?案,?部分以?站式、定制化服务为主。
?云测数据:?向垂直?业?模型数据解决?案
?星尘数据:星尘COSMO?模型数据?字塔解决?案
?澳鹏Appen:AI聊天反馈和基准测试两?解决?案
???引擎:????(涵盖数据服务模块)
?百度:?个?模型数据标注基地
?模型范式涌?数据标注,?动化标注?槛?幅降低
以SAM模型为代表的图像分割模型开源;GPT-4、GPT-4V为代表的?模型也被验证在?本、图像领域标注具有可?性,并衍?出专?做数据标注的?模型,?幅降低?动化标注?槛。国内不少数据服务商进?相关?模型研发,部分产品已经发布:
?海天瑞声:数据?产垂直?模型(研发阶段)
?曼孚科技:?动驾驶数据标注视觉?模型(已完成研发)
??猫数据:?动驾驶?模型AutopilotGPT
您可能关注的文档
- 2024年电子行业投资策略:AI终端普及新纪元.docx
- 2025年前AIGC安全风险报告(中文版).docx
- AI PC产业(中国)白皮书(2023).docx
- AI算力行业深度研究报告:智算供给格局分化,国产化进程有望加速(2023).docx
- 从多模态联合预训练到多模态⼤语⾔模型:架构、训练、评测、趋势概览(2023).docx
- 大模型与AIGC蓝皮书(2023).docx
- 多模态技术加速,AI商业宏图正启(2023).docx
- 美国《企业人工智能战略2024-2025》中文版.docx
- 美国国会:生成式人工智能和数据隐私-入门(中文版).docx
- 人工智能大模型保险行业应用评测报告(2023).docx
- 广东省广州市增城区2023-2024学年九年级上学期期末道德与法治试题(答案).doc
- 广东省广州市2021-2022学年九年级上学期期末模拟历史试题(含答案).docx
- 广东省广州市天河区暨南大学附属实验学校2022-2023学年九年级上学期期末历史试题.doc
- 广州市南沙区2023—2024学年第一学期九年级历史期末教学质量监测模拟试卷.doc
- 广东省广州市天河区暨南大学附属实验学校2022-2023学年九年级上学期期末历史试题(答案).doc
- 在全市县区委书记第五次工作座谈会上的讲话.docx
- 3篇中央政法工作会议发言材料汇编.docx
- 5篇贵州省庆祝第二十个中国记者节座谈会经验交流发言材料汇编.docx
- 在全市人大工作座谈会上的讲话.docx
- 在全市人大系统改革创新工作交流会上的讲话.docx
文档评论(0)