网站大量收购闲置独家精品文档,联系QQ:2885784924

数据自动增值方案.pptx

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据自动增值方案

机器学习的核心问题最小化泛化误差:衡量一个模型预测未知数据的能力

机器学习的核心问题机器学习的理论基础M泛化误差假设空间大小数据量

是否数据越多越好关于数据量的2个基本问题1.Wide2.DeepPurchasingpower除掉Noisedata,outlier/biaseddataWealwaysneedmoredataOtherwise,itrequiresbetterapproaches

数据量的大致估计关于数据量的2个基本问题10EPVrule:10eventsperpredictorvariable1.数据量的大致估计:Eg1:图片2分类任务特征提取1024维度,则约需要1024×10×2张图片Eg2:NMTQE任务的训练数据量估计:Source:SeveralflavorsoftheLinuxkernelexistforeachportMT:每个OK端口OK都有OKLinux内核OKOK的几种味道OKOKBADOK每个词的contextpresentation:1024假设:每个词的正负分类均衡,上下文窗口3~10需要60K~200K训练样本(i.e.(1024×10×2×3)~(1024×10×2×10))

数据的增值空间生数据?标注数据节约Labeling10%-50%据?Labeling:指示出最值得标注的生数据待标数据标注数据?Enhancement:对标注数据进行增强,提标注平台升模型泛化性以及测试集上表现?提升模型性能低资源5%-15%高资源1%-5%?Denoise:对标注数据或者增强数据进行EnhancementDenoise去噪,提升模型训练效果去噪数据增强数据?数据划分:和测试集分布更接近的训练?提升模型性能?提升和线上测试的一致性数据划分数据训练数据

数据增强为什么会有好处数据自动增值方案?Neuralnetworksareuniversalfunctionapproximators-veryeasytooverfit?Tomakemodelsinvarianttoarbitrarytransformsbeyondtheonesbuiltintothearchitecture?观察多张输入图片的不同层featuremap,发现模型从2-5layer都可以学到复杂的不变性?数据增强的目的,不是增加数量,而是让他更多样化数据增强等效于方差的正则化,可以使分类器更健壮

线上增强Or线下增强?数据增强Neuralnetworktrainingisnon-convexoptimizationNon-ConvexDoDoNot

数据自动增值方案自动数据增强?现阶段数据增强存在的问题:不同模型需要不同的增强手段,每个模型手动研发增强策略,费时费力,且增强策略迁移性没有挖掘?LED的解决方案:构建、积累统一的增强库,通过搜索策略自动获取特定模型适用的增强手段增强库+搜索策略输出增强策略?搜索空间构造:[增强方法,概率,强度]?Typo?EDA?适应增强搜索的算法:?TF-IDF?TreeEDA?Back-translation?CBERT?Denoise?……PB2PBABananaFastAARL前向搜索…9

NLP增强库增强方法应用TextTextLabelPairTextLabelTreeAugSeq2SeqSeqLabel输出层LabelindependentLabeldependentCharAugWordAugSentenceAugCVAELAMBADA数据增强层Main,Delete,Add,BackTranslationSwappositionSynonyVAECBERTGPT2HypernymmHomophonicTypoSwap,EDAParaphraseNoiseBARTEDATF-IDFLM………………Otherknowledgebase资源依赖层WordDict(antonym、synonym、hypernym)Pre-trainLMmodelNLPParserNLP增强库项目结构(led-textaug)【目前已涵盖19种方案】10

智慧城市是利用先进的信息技术和数据分析手段,对城市进行全方位、多角度地信息化、智能化改造,以提高城市管理、服务和生活质量的现代化城市。其中,智慧城市的基础是由各种传感器和设备组成的物联网,以及其所产生的大数据。具体来说,智慧城市的基础建设包括以下几个方面:1.物联网基础设施:构建

文档评论(0)

动点策划 + 关注
官方认证
服务提供商

动点策划通过提供各行各业经典策划案例,策划思路,行业最新动态,旨在做好你的助手,为你正在谋划的事情提供框架思路或创作灵感。

认证主体迈通人才资源咨询(广东)有 限公司
IP属地广东
统一社会信用代码/组织机构代码
914400007224748147

1亿VIP精品文档

相关文档