[AI工具宝典]AI产品经理之数据标注.pdfVIP

[AI工具宝典]AI产品经理之数据标注.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

前两篇笔者分别为大家介绍了AI产品经理需要了解的概率论通识、线性代数通识、微积

分通识,本篇文章中,笔者将继续为你介绍AI产品经理需要了解的数据标注,供大家一

参考学习。

前几天参加京东的AI技术沙龙,在提问环节,有个小伙说:

“我是做销售的,刚才您讲的我都没听懂,我就知道,现在AI是风口,只要做AI相关的

就能挣钱,您能说几个现在我们这类人能做到吗?能挣钱就行!”

台上技术出身的老师自然一时语塞。小伙说的没错,百团大战的时候确实一批刷单公司赚

得盆满钵满。但是这些投机取巧注定不能长远。

让更多人卷进这次AI浪潮的可能就是数据标注了,AllinAI的百度拥有大量的标注业务

,大部分河南标注工厂用的是百度的标注工具,干的是百度的活。开始的时候标注的利润

空间可以达到60%—70%。有些企业盲目扩张,一下子招了几百人;但是陆奇离开后,

百度需求减少。准确率又普遍提高至95%-96%,活难干了。这些工厂只会百度的标注工

具,很难接别家的业务,因此死了一批。

现在来看标注行业是一个苦行业,“如果你和谁有仇,就劝他干标注吧。”这是标注圈有

名的段子。干标注就像将水倒进一个水桶里,每拉一个框就是添一碗水。目前,谁也不知

道还能添多久,只有水溢出来时,才知道。

数据是AI公司的必需品。数据对于AI模型的重要性尤为重要,AI建模没有门槛,数据才

是门槛。现阶段的人工智能是简单的认知智能。分类器的构造是个数学问题,就是由数据

堆起来的。或者说深度学习本质上是个数学问题,是由大量的样本空间数据反向构造分类

器的系数空间的过程。

数据标注模型

数据标注业务的配置是一个复杂的数学模型。比如,有些任务需要串并联的工作流,并联

的工作流是多人协同的工作。串联的工作流是后一个结果是基于前一个结果进行处理的,

串并联的工作流需要平台来实现业务工作流的配置。比如一些NLP型的文本标注作业,

需要多个人来标,最后N选一或者投票。串并联配置涉及到底层数据流的分发等。或者

说更像是一个流水线作业流程。

不断地用标注后的数据去训练模型,不断调整模型参数,得到指标数值更高的模型。

数据的质量直接会影响到模型的质量,因此数据标注流程设计和监督纠错就显得异常重要

一般来说,数据标注部分可以有三个角色:

数据标注员:标注员负责标记数据。(文本、图像、视频)数据审核员:审核员负责审

核被标记数据的质量。(抽检)标注管理员:管理人员、发放任务、跟进流程。

只有在数据被审核员审核通过后,这批数据才能入库使用。

一般众包数据标记流程

任务分配:一般数据分配由后台自动分发,根据用户选择标注类型每次分发几条内容,标

注完成后再次分发。复核入库:一般一条任务会分配给大于三个人的基数人员完成,根

据少数服从多数原则确定该条数据的最终标签。质量验收:一般会根据用户标注总数量

和入库数量计算该用户的标注质量,和计算有效标注数量,质量高的和质量低的薪酬计算

方法会有差别,以此来淘汰不能完成高质量标注的人员。

数据标注类型

图像标注-线标注

根据需求标注检测对象相对应的线型位置,例如:车道线。

图像标注-边框标注

标注检测对象相对应的区域,例如:汽车/行人等各种物体。

图像标注-3D边框标注

将图像中待检测物体以立体形式标注,例如汽车检测。

图像标注-语义分隔

根据检测区域不同,将图像标注为不同的像素,例如来自汽车拍摄的图像。

图像标注-多边形标注

根据需求标注检测对象的形状,例如:标注图像中的汽车轮廓(示例图)或标记污损边界

图像标注-点标注

根据需求标注检测对象参考点的像素坐标,或者图像中的关键点标记,如人脸。

图像标注-3D点云标注

在3D空间中,标注点云数据中指定的检测对象,如汽车、行车道等。

视频标注-跟踪标注

在视频或者连续的图像中跟踪标注检测对象,形成有ID关联的运动轨迹。

文本标注-中英文语音转写与校对

英文语音转中文文本,或中文文本转英文语音。

文本标注

实体命名,标注文本中的实体。

语音标注-客服语音标注

外呼机器人进行外呼记录语音标注呼叫成功或者失败,从而训练话术。

标注流程

需求确认:对标注任务需求确认,标注数据集准备完成,规范标注需求,指定标注模型。

人员筛选:确定标注人员及人员角色人员培训:针对不同角色培训标注规范和标注标准

开始试标:先标注少量数据,试用标注数据,调整标注流程,使得效率最优。正式标注

:完成整体标注任务。导出数据。

总结

快速、高效的进行数据标注,是机器学习和深度学习的基础,现在一些标注工具通过

文档评论(0)

LOONG + 关注
实名认证
文档贡献者

三步一卡,卡的潇洒;五步一停,摆个造型。

1亿VIP精品文档

相关文档