- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
重庆师范大学硕士学位论文中文摘要
基于动态阈值和差异性检验的自训练算法研究
摘要
半监督学习能充分利用少量有标签样本和大量无标签样本训练出较好的分类
器而得到广泛关注。自训练算法是半监督学习中经典算法之一,具有简单高效且
适用性广等优点,但自训练算法仍面临如何有效选取高置信度样本和缓解错误累
积等挑战。因此本文针对自训练算法存在问题展开研究,具体贡献如下:
(1)针对分类器难以有效选取高置信度样本的问题,本文出了一种基于动
态阈值和局部离群因子的自训练算法。首先,分析置信度阈值与样本和分类器性
能之间关系。其次,计算样本的局部离群因子,依据局部离群因子剔除无标签样
本中离群点,并对无标签样本进行排序和分类,分批次输入无标签样本,以使分
类器更易选取到高置信度的无标签样本。最后,根据新增伪标签样本的数量和所
属区域的变化,设计一个动态阈值函数,升高置信度样本的质量。实验结果表
明,该算法能得到更好分类性能。
(2)针对分类器难以长效选取高置信度样本和误标记样本错误累积的问题,
本文出了一种基于动态阈值和差异性检验的自训练算法。首先,依据样本局部
离群因子算法对有标签样本进行筛选。其次,对阈值函数采用分段设计,避免阈
值过高导致选取高置信度样本选取过少的问题。最后,定义密集距离度量样本间
的差异性,分别计算伪标签样本与同类和不同类样本之间的密集距离之和,从而
找出不确定度高的伪标签样本,并将此类样本并入下轮训练的无标签样本集中,
解决样本被错误标记的问题。实验结果表明,该算法在基准数据集上能取得理想
效果。
(3)针对分类器会偏向多数类,影响分类器的泛化性和分类性能的问题。本
文出了一种基于渐进式分布对齐的自训练算法。首先,剔除被多数类包围的少
数类样本,避免此类噪声样本对分类器性能影响。其次,计算迭代后有标签样本
集分布与初始有标签样本集类别分布比值,当预测结果偏向少数类时通过分布对
齐调整分类器预测结果,并代替分类器原本预测结果,同时计算多数类和少数类
的差异性检验的近邻系数,高少数类的高置信度样本通过率。最后,通过在基
准数据集上验证算法有效性。
关键词:高置信度样本,局部离群因子,动态阈值,差异性检验,分布对齐
Ⅰ
重庆师范大学硕士学位论文英文摘要
ResearchonSelf-trainingAlgorithmbasedonDynamic
ThresholdandDifferenceTest
ABSTRACT
Semi-supervisedlearninghasattractedwidespreadattentionduetoitsabilityto
effectivelyutilizealimitednumberoflabeledsamplesandalargenumberofunlabeled
samplestotrainabetterclassifier.Self-trainingalgorithmsareclassicalgorithmsin
semi-supervisedlearning,knownfortheirsimplicity,efficiency,andwideapplicability.
However,self-trainingalgorithmsstillfacechallengessuchaseffectivelyselecting
high-confidencesamplesandmitigatingerroraccumulation.Therefore,theproblems
existingintheself-trainingalgorithmsarethefocusofthethesis,andthespecific
contributionsareasfollows:
(1)Ai
您可能关注的文档
- 基于POPBL的跨学科主题学习在初中信息科技的设计与实践.pdf
- 基于PVT-SE的微表情识别方法研究与应用.pdf
- 基于Scrum敏捷框架的YD公司软件项目管理优化研究.pdf
- 基于T球面模糊集和高斯云的动态不确定因果图研究.pdf
- 基于UbD理论的高中“数列”单元教学设计研究.pdf
- 基于UbD模式的初中数学单元教学设计研究——以“相似”为例.pdf
- 基于UbD模式的初中信息科技大单元教学设计与应用.pdf
- 基于vMF分布的深度聚类算法研究.pdf
- 基于巴渝文化的高中地理研学旅行方案设计研究.pdf
- 基于产出导向法的初中英语应用文写作教学研究.pdf
- 基于多孔碳负载氧化锰纳米颗粒的类氧化酶催化活性的研究.pdf
- 基于多模态的产出导向法在高中英语应用文写作教学中的应用研究.pdf
- 基于多特征融合的行人过街意图检测研究与应用.pdf
- 基于多序列MRI和深度学习的脑胶质瘤CDKN2A_B基因分型方法研究.pdf
- 基于翻转课堂的英语核心素养培养应用研究——以高中英语阅读教学为例.pdf
- 基于钒酸铋光电极构建的传感器及其光电检测性能研究.pdf
- 基于范希尔理论的初中数学几何单元教学设计研究.pdf
- 基于非晶氧化镓日盲紫外光电探测器的性能研究.pdf
- 基于负面情绪调节方法的智慧养老家居产品设计研究.pdf
- 基于改进PBFT与隐私保护方案的区块链数据共享研究.pdf
最近下载
- 2025青岛版小学科学三年级上册1-5《制作动物分类图册》(教学课件)(新教材).pptx
- 标准图集-17J008 挡土墙(重力式、衡重式、悬臂式) 无水印.pdf VIP
- JJF(陕) 048-2021 一体化振动变送器校准规范.docx VIP
- 退药申请单.doc VIP
- 2025年中国镁铝尖晶石行业投资前景及策略咨询研究报告.docx
- 农牧民培训国家通用语言.pptx
- 2022年度国铁集团质量安全红线检查迎检实施方案(最终版) (2).pdf VIP
- 六年级数学上册第一单元圆基础测试题北师大.doc VIP
- (高清版)B/T 42584-2023 信息化项目综合绩效评估规范.pdf VIP
- 《建筑给水复合管道工程技术规程》CJJ@T155-2011.pdf VIP
文档评论(0)