网站大量收购独家精品文档,联系QQ:2885784924

基于标签分布的回归噪声过滤方法研究.pdf

基于标签分布的回归噪声过滤方法研究.pdf

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

近年来,人工智能已经延伸到人类生活的各个领域。作为人工智能的核心技术,

机器学习致力于学习数据中的潜在规律,提升模型对未知数据的预测能力。数据质

量是提高机器学习性能的关键。标签可以进一步丰富数据信息,为各个研究领域的

模型提供关键支撑。模型的可靠性主要依赖于标签的质量,包括完整性和正确性。

然而,标记任务难度高和标注工作中的主观认知使得一些样本被错误标记,导致数

据质量下降。因此准确识别并过滤标签噪声至关重要。为了缓解回归中的数值型标

签噪声问题,本文从噪声学习问题的数据层面和标签分布角度展开系统研究,具体

内容如下:

(1)针对回归中的数值型标签噪声,通过近邻关系和高斯混合模型(Gaussian

MixtureModel,GMM)估计样本真实标签的后验分布。然后将最大后验估计思想与后

验分布相结合,从而提出一种标签噪声的最大后验(MaximumaPosteriori,MAP)估计

方法。将上述估计方法与最优样本选择框架结合,提出基于MAP估计的噪声过滤

(NoiseFilteringwithMaximumaPosteriori,MAPNF)算法。MAP估计方法提供了一种

基于后验概率的决策依据,使得估计结果更具合理性和可解释性,可以准确识别样

本中的标签噪声并过滤。对比其他有效的过滤方法,MAPNF在提高不同回归模型的

泛化性能方面表现出了明显优势。

(2)当回归数据中存在数值型标签噪声时,传统泛化误差估计方法不再适用,

回归模型的泛化性能缺乏保障。本文提出一种面向标签噪声的回归模型泛化误差估

计方法,并设计了自适应高斯核噪声估计与样本召回过滤(AdaptiveGaussianKernel

NoiseEstimatorandSampleRecallFiltering,AGKSRF)算法。在所提Craven-Wahba(CW)

泛化误差估计的基础上,提出一种CW样本选择框架。基于最大后验估计思想和自

适应近邻方法,提出标签噪声的自适应高斯核(AdaptiveGaussianKernel,AGK)估计方

法。结合CW样本选择框架,AGKSRF首先过滤大噪声样本,同时考虑到初次过滤

时可能有部分干净样本被误删,AGKSRF根据模型在过滤样本上的误差对样本进行

召回再过滤。该方法可以根据样本分布特点准确识别噪声,召回再过滤策略可以减

少误判和过滤错误,提升了标签噪声过滤的有效性和模型的预测性能。

本文的研究成果有效缓解了回归任务中的数值型标签噪声问题。所提两种过滤

算法可以减弱标签噪声的干扰,且在噪声估计和提升模型泛化能力方面均优于其他

最新过滤方法。两种方法以更少的高质量样本获得更低的预测误差,产生“少即是好”

I

目录

摘要I

ABSTRACTIII

1绪论1

1.1研究背景1

1.2国内外研究现状2

1.2.1标签噪声鲁棒建模3

1.2.2标签噪声过滤4

1.3研究内容6

1.4本论文结构安排7

2背景知识9

2.1相关概念9

2.2最优样本选择框架9

2.3经典数值型标签噪声过滤算法10

2.3.1RegENN算法10

2.3.2DiscENN算法11

2.3.3DROP-RE算法11

2.3.4IPF算法11

2.3.5ASNF算法12

2.3.6CDF算法12

2.3.7RNF算法12

2.3.8LDNF算法13

2.4本章小结13

3标签噪声的最大后验估计与过滤算法15

3.1高斯混合模型15

3.2标签

文档评论(0)

qiutianfeng + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档