基于动态阈值和差异性检验的自训练算法研究.pdfVIP

基于动态阈值和差异性检验的自训练算法研究.pdf

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

重庆师范大学硕士学位论文中文摘要

基于动态阈值和差异性检验的自训练算法研究

摘要

半监督学习能充分利用少量有标签样本和大量无标签样本训练出较好的分类

器而得到广泛关注。自训练算法是半监督学习中经典算法之一,具有简单高效且

适用性广等优点,但自训练算法仍面临如何有效选取高置信度样本和缓解错误累

积等挑战。因此本文针对自训练算法存在问题展开研究,具体贡献如下:

(1)针对分类器难以有效选取高置信度样本的问题,本文出了一种基于动

态阈值和局部离群因子的自训练算法。首先,分析置信度阈值与样本和分类器性

能之间关系。其次,计算样本的局部离群因子,依据局部离群因子剔除无标签样

本中离群点,并对无标签样本进行排序和分类,分批次输入无标签样本,以使分

类器更易选取到高置信度的无标签样本。最后,根据新增伪标签样本的数量和所

属区域的变化,设计一个动态阈值函数,升高置信度样本的质量。实验结果表

明,该算法能得到更好分类性能。

(2)针对分类器难以长效选取高置信度样本和误标记样本错误累积的问题,

本文出了一种基于动态阈值和差异性检验的自训练算法。首先,依据样本局部

离群因子算法对有标签样本进行筛选。其次,对阈值函数采用分段设计,避免阈

值过高导致选取高置信度样本选取过少的问题。最后,定义密集距离度量样本间

的差异性,分别计算伪标签样本与同类和不同类样本之间的密集距离之和,从而

找出不确定度高的伪标签样本,并将此类样本并入下轮训练的无标签样本集中,

解决样本被错误标记的问题。实验结果表明,该算法在基准数据集上能取得理想

效果。

(3)针对分类器会偏向多数类,影响分类器的泛化性和分类性能的问题。本

文出了一种基于渐进式分布对齐的自训练算法。首先,剔除被多数类包围的少

数类样本,避免此类噪声样本对分类器性能影响。其次,计算迭代后有标签样本

集分布与初始有标签样本集类别分布比值,当预测结果偏向少数类时通过分布对

齐调整分类器预测结果,并代替分类器原本预测结果,同时计算多数类和少数类

的差异性检验的近邻系数,高少数类的高置信度样本通过率。最后,通过在基

准数据集上验证算法有效性。

关键词:高置信度样本,局部离群因子,动态阈值,差异性检验,分布对齐

重庆师范大学硕士学位论文英文摘要

ResearchonSelf-trainingAlgorithmbasedonDynamic

ThresholdandDifferenceTest

ABSTRACT

Semi-supervisedlearninghasattractedwidespreadattentionduetoitsabilityto

effectivelyutilizealimitednumberoflabeledsamplesandalargenumberofunlabeled

samplestotrainabetterclassifier.Self-trainingalgorithmsareclassicalgorithmsin

semi-supervisedlearning,knownfortheirsimplicity,efficiency,andwideapplicability.

However,self-trainingalgorithmsstillfacechallengessuchaseffectivelyselecting

high-confidencesamplesandmitigatingerroraccumulation.Therefore,theproblems

existingintheself-trainingalgorithmsarethefocusofthethesis,andthespecific

contributionsareasfollows:

(1)Ai

文档评论(0)

精品资料 + 关注
实名认证
文档贡献者

温馨提示:本站文档除原创文档外,其余文档均来自于网络转载或网友提供,仅供大家参考学习,版权仍归原作者所有,若有侵权,敬请原作者及时私信给我删除侵权文

1亿VIP精品文档

相关文档