- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第二章数据标注技术概述
教学目标?培养直面困难,迎难而上的坚强意志。思政目标熟悉数据清洗、数据标注的分类。掌握数据标注技术、数据采集、数据标注、数据清洗、数据交付的概念。教学目标
数据标注技术概述第二章2.1数据标注技术的基本概念2.2数据标注分类2.3数据标注与人工智能的关系
文本数据标注概述什么是数据标注?2.1数据标注技术的基本概念
2.1.1数据采集数据采集(DataAcquisition,英文缩写DAQ):又称为数据获取,根据各种复杂场景数据的需求,通过相应的设备,进行线下和线上信息采集,此信息涵盖图片、文本、语音、视频等全维度多媒体数据。助力客户高效展开算法模型训练与机器学习。
2.1.2数据清洗数据清洗(Datacleaning):对数据进行重新审查和校验,删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗就是把“脏数据”“洗掉”,发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门。不符合要求的数据主要包括不完整的数据、错误的数据、重复的数据。
2.1.2数据清洗数据清洗的方法通常来说,数据清理是将数据库中的数据精简并除去重复记录,将剩余部分数据转换成标准可接收格式的过程。数据清理标准模型是将数据输入到数据清理处理器,通过一系列步骤“清理”数据,然后以期望的格式输出清理过的数据。数据清理从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题。(1)错误值的检测及解决方法(2)不完整数据的解决方法(3)重复记录的检测及消除方法(4)数据源内部及数据源之间数据不一致性的检测及解决方法
2.1.2数据清洗数据清洗分类数据清理根据不同的应用,数据清理的要求和标准也不同,数据清理的步骤和方法很难做到统一,根据数据清洗要求不同,数据清洗可以分为以下几类。(1)重复数据清洗(2)错误数据清洗(3)残缺数据清洗
2.1.3数据标注数据标注技术是根据客户的原始需求定制数据方案进行的数据获取并进行加工处理后,再将标准化数据输出给客户使其得到符合要求的可用数据的技术。数据标注的数据来源多种多样,数据量也越发庞大,即使如此,并不是每种数据都适合标注,具体而言,常见的标注对象主要分为图像与视频、语音、文本。1.图像与视频数据。对街景的画框标注;对人脸图像做描点处理。按照图像展示对象,又可分为人脸数据、车辆数据以及街景数据等。2.语音数据。在实际应用中,语音处理软件科大讯飞、Praat、Transcriber、SPPAS等都是常用的语音标注工具。3.文本数据。可通过科大讯飞标注软件、IEPY、DeepDive(Mindtagger)、BRAT、SUTDAnnotator、Snorkel、Slate、Prodigy等开源文本工具进行标注。
2.2数据标注分类1.分类标注分类标注将目标图片进行打标签。一般是从既定的标签中选择数据对应的标签,是封闭集合。一张图就可以有很多分类/标签:轿车、货车、巴士、红色、白色、黑色、红色等(如右图)。分类标注适用于文本、图像、语音、视频。
2.2数据标注分类2.标框标注标框标注是机器视觉中的标框标注,就是框选要检测的对象。如人脸识别,首先要先把人脸的位置确定下来再进行人脸识别。足球比赛中,通过对球员球服的识别,把球员归属球队进行分类(如右图)。
2.2数据标注分类3.区域标注区域标注相比于标框标注,区域标注要求更加精确。边缘可以是柔性的。如自动驾驶中的道路识别(如下图)。
2.2数据标注分类4.描点标注描点标注是一些对于特征要求细致的应用中进行描点标注。例如:人脸识别、骨骼识别等(如右图)。
2.2数据标注分类5.语音标注以及其他标注标注的类型除了上面几种常见,比如还有语音标注(如右图)、文本标注等。根据不同需求则需要不同的标注。如自动摘要,就需要标注文章的主要观点,自动摘要标注就区别于上面任何标注。
2.3数据标注与人工智能的关系数据标注是人工智能的基础,也是人工智能技术的坚实保证。数据标注就是将大量的、原始的、杂乱的数据经过加工处理得到“干净”的数据,为人工智能提供精确地数据源。当下人工智能行业对于标注数据质量要求的越来越高,数据标注行业正在向着精细化时代迈进。人工智能要想实现,就需要把人类的理解和判断能力教给计算机,让计算机拥有人类的识别能力。机器学习需要投喂海量的数据,这些
您可能关注的文档
最近下载
- 高三日语复习4:高考日语句型对应练习.pdf VIP
- 人教版八年级下册英语全册课件(2024年2月修订).pptx
- 新引流管护理.ppt VIP
- 2024年高压电工证考试题库及答案(1000题).pdf VIP
- 高三日语复习4:高考日语阅读练习2.pdf VIP
- 统编版高中政治必修1《中国特色社会主义》期末复习:判断题100题专项练习题(含答案解析).pdf VIP
- 常见毒性气体量程及报警值设定 Ver2.0.docx
- 高三日语复习4:高考日语句型、助词、补助动词 练习.pdf VIP
- (详细)高压隔离开关与高压负荷开关课件.ppt
- Q_320281AWP03-2020SBJ型屑饼机企业标准.pdf
文档评论(0)