- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据自动增值方案
机器学习的核心问题最小化泛化误差:衡量一个模型预测未知数据的能力
机器学习的核心问题机器学习的理论基础M泛化误差假设空间大小数据量
是否数据越多越好关于数据量的2个基本问题1.Wide2.DeepPurchasingpower除掉Noisedata,outlier/biaseddataWealwaysneedmoredataOtherwise,itrequiresbetterapproaches
数据量的大致估计关于数据量的2个基本问题10EPVrule:10eventsperpredictorvariable1.数据量的大致估计:Eg1:图片2分类任务特征提取1024维度,则约需要1024×10×2张图片Eg2:NMTQE任务的训练数据量估计:Source:SeveralflavorsoftheLinuxkernelexistforeachportMT:每个OK端口OK都有OKLinux内核OKOK的几种味道OKOKBADOK每个词的contextpresentation:1024假设:每个词的正负分类均衡,上下文窗口3~10需要60K~200K训练样本(i.e.(1024×10×2×3)~(1024×10×2×10))
数据的增值空间生数据?标注数据节约Labeling10%-50%据?Labeling:指示出最值得标注的生数据待标数据标注数据?Enhancement:对标注数据进行增强,提标注平台升模型泛化性以及测试集上表现?提升模型性能低资源5%-15%高资源1%-5%?Denoise:对标注数据或者增强数据进行EnhancementDenoise去噪,提升模型训练效果去噪数据增强数据?数据划分:和测试集分布更接近的训练?提升模型性能?提升和线上测试的一致性数据划分数据训练数据
数据增强为什么会有好处数据自动增值方案?Neuralnetworksareuniversalfunctionapproximators-veryeasytooverfit?Tomakemodelsinvarianttoarbitrarytransformsbeyondtheonesbuiltintothearchitecture?观察多张输入图片的不同层featuremap,发现模型从2-5layer都可以学到复杂的不变性?数据增强的目的,不是增加数量,而是让他更多样化数据增强等效于方差的正则化,可以使分类器更健壮
线上增强Or线下增强?数据增强Neuralnetworktrainingisnon-convexoptimizationNon-ConvexDoDoNot
数据自动增值方案自动数据增强?现阶段数据增强存在的问题:不同模型需要不同的增强手段,每个模型手动研发增强策略,费时费力,且增强策略迁移性没有挖掘?LED的解决方案:构建、积累统一的增强库,通过搜索策略自动获取特定模型适用的增强手段增强库+搜索策略输出增强策略?搜索空间构造:[增强方法,概率,强度]?Typo?EDA?适应增强搜索的算法:?TF-IDF?TreeEDA?Back-translation?CBERT?Denoise?……PB2PBABananaFastAARL前向搜索…9
NLP增强库增强方法应用TextTextLabelPairTextLabelTreeAugSeq2SeqSeqLabel输出层LabelindependentLabeldependentCharAugWordAugSentenceAugCVAELAMBADA数据增强层Main,Delete,Add,BackTranslationSwappositionSynonyVAECBERTGPT2HypernymmHomophonicTypoSwap,EDAParaphraseNoiseBARTEDATF-IDFLM………………Otherknowledgebase资源依赖层WordDict(antonym、synonym、hypernym)Pre-trainLMmodelNLPParserNLP增强库项目结构(led-textaug)【目前已涵盖19种方案】10
智慧城市是利用先进的信息技术和数据分析手段,对城市进行全方位、多角度地信息化、智能化改造,以提高城市管理、服务和生活质量的现代化城市。其中,智慧城市的基础是由各种传感器和设备组成的物联网,以及其所产生的大数据。具体来说,智慧城市的基础建设包括以下几个方面:1.物联网基础设施:构建
您可能关注的文档
- 集团企业数字化转型服务方案共76页.pptx
- 旅游行业政策解读和信息化机会.pptx
- 美的供应链变革及智慧采购解决方案 P57.pptx
- 青运会视频监控系统汇报方案共62页.pptx
- 深信服全栈私有云主解决方案(1).pptx
- 腾讯智慧校园项目实施方案.pptx
- 通信企业信息化规划IT架构规划.pptx
- 文化艺术中心影剧院智能化项目设计方案42页.pptx
- 沃德思绿色数据中心解决方案.pptx
- 无人零售解决方案.pptx
- 五个管好的意识形态工作总结.docx
- 在学校党员大会上的讲话:今年国际教育发展的四个主题.docx
- 在区廉政谈话会上的讲话.docx
- 学习贯彻2024年中央经济工作会议精神 打好政策“组合拳”保持经济稳定增长.pptx
- (7篇)学习贯彻中央经济工作会议精神研讨发言心得体会汇编.docx
- 关于“时代新人”视阈下高职思政课教学实践探究报告.docx
- (2025.01.05)关于城市营商环境现状与优化路径探索报告.docx
- 教育工作会议主题发言材料和讲话材料汇编(6篇).docx
- 镇党委副书记兼派出所所长关于2024年度民主生活会个人对照查摆剖析材料.docx
- 县委常委班子2024年度民主生活会对照检查.docx
最近下载
- 2023年广东省普通高中学业水平考试生物试卷.pdf VIP
- 中国复合铜箔行业市场全景评估及投资前景展望报告.docx
- 《广药南药》ppt模板课件.ppt
- 统编版高中历史选择性必修2 《经济与社会生活》思考点、学思之窗、问题探究习题答案.doc
- (精选)附表1软硬件及机房建设需求配置表.pdf VIP
- 2024年中考语文试题分类汇编:一般记叙文阅读(第03期)含答案及解析.pdf VIP
- 项目部安全生产隐患排查治理行动方案.docx VIP
- 安徽省合肥市包河区2023-2024学年七年级上学期期末历史试题.docx VIP
- 部编版六年级上册第七单元语文园地表艺术的词语释义和例句.docx
- 水泥厂日产300吨窑尾预热器与分解炉设计.doc
动点策划通过提供各行各业经典策划案例,策划思路,行业最新动态,旨在做好你的助手,为你正在谋划的事情提供框架思路或创作灵感。
文档评论(0)