- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
近年来,人工智能已经延伸到人类生活的各个领域。作为人工智能的核心技术,
机器学习致力于学习数据中的潜在规律,提升模型对未知数据的预测能力。数据质
量是提高机器学习性能的关键。标签可以进一步丰富数据信息,为各个研究领域的
模型提供关键支撑。模型的可靠性主要依赖于标签的质量,包括完整性和正确性。
然而,标记任务难度高和标注工作中的主观认知使得一些样本被错误标记,导致数
据质量下降。因此准确识别并过滤标签噪声至关重要。为了缓解回归中的数值型标
签噪声问题,本文从噪声学习问题的数据层面和标签分布角度展开系统研究,具体
内容如下:
(1)针对回归中的数值型标签噪声,通过近邻关系和高斯混合模型(Gaussian
MixtureModel,GMM)估计样本真实标签的后验分布。然后将最大后验估计思想与后
验分布相结合,从而提出一种标签噪声的最大后验(MaximumaPosteriori,MAP)估计
方法。将上述估计方法与最优样本选择框架结合,提出基于MAP估计的噪声过滤
(NoiseFilteringwithMaximumaPosteriori,MAPNF)算法。MAP估计方法提供了一种
基于后验概率的决策依据,使得估计结果更具合理性和可解释性,可以准确识别样
本中的标签噪声并过滤。对比其他有效的过滤方法,MAPNF在提高不同回归模型的
泛化性能方面表现出了明显优势。
(2)当回归数据中存在数值型标签噪声时,传统泛化误差估计方法不再适用,
回归模型的泛化性能缺乏保障。本文提出一种面向标签噪声的回归模型泛化误差估
计方法,并设计了自适应高斯核噪声估计与样本召回过滤(AdaptiveGaussianKernel
NoiseEstimatorandSampleRecallFiltering,AGKSRF)算法。在所提Craven-Wahba(CW)
泛化误差估计的基础上,提出一种CW样本选择框架。基于最大后验估计思想和自
适应近邻方法,提出标签噪声的自适应高斯核(AdaptiveGaussianKernel,AGK)估计方
法。结合CW样本选择框架,AGKSRF首先过滤大噪声样本,同时考虑到初次过滤
时可能有部分干净样本被误删,AGKSRF根据模型在过滤样本上的误差对样本进行
召回再过滤。该方法可以根据样本分布特点准确识别噪声,召回再过滤策略可以减
少误判和过滤错误,提升了标签噪声过滤的有效性和模型的预测性能。
本文的研究成果有效缓解了回归任务中的数值型标签噪声问题。所提两种过滤
算法可以减弱标签噪声的干扰,且在噪声估计和提升模型泛化能力方面均优于其他
最新过滤方法。两种方法以更少的高质量样本获得更低的预测误差,产生“少即是好”
I
目录
摘要I
ABSTRACTIII
1绪论1
1.1研究背景1
1.2国内外研究现状2
1.2.1标签噪声鲁棒建模3
1.2.2标签噪声过滤4
1.3研究内容6
1.4本论文结构安排7
2背景知识9
2.1相关概念9
2.2最优样本选择框架9
2.3经典数值型标签噪声过滤算法10
2.3.1RegENN算法10
2.3.2DiscENN算法11
2.3.3DROP-RE算法11
2.3.4IPF算法11
2.3.5ASNF算法12
2.3.6CDF算法12
2.3.7RNF算法12
2.3.8LDNF算法13
2.4本章小结13
3标签噪声的最大后验估计与过滤算法15
3.1高斯混合模型15
3.2标签
文档评论(0)