- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主动学习算法中采样策略分析-analysis of sampling strategy in active learning algorithm
摘
摘 要
哈尔滨工业大学工学博士学位论文
哈尔滨工业大学工学博士学位论文
-
- I -
-
- PAGE VIII -
摘 要
当前,文本挖掘、语音识别、生物信息发掘和视觉对象分类等应用领域面临 的一个现实问题是:无标注样例数目众多,易于获得;标注样例数量稀少,难于 获得。作为机器学习领域的重要研究方向之一,主动学习算法可以同时利用标注 样例和无标注样例来构建高精度分类模型,因此,本文对主动学习算法中采样策 略进行深入研究,并将所提出采样策略算法应用于视觉对象分类任务中。
视觉对象的语义理解是计算机视觉领域的重要问题。网络技术的快速发展使 得短时间内获取大量图像成为可能,但对这些无监督或弱监督图片中包含的视觉 对象进行分类成为一个艰巨、富有挑战性的任务。越来越多的科研人员致力于发 展有效的机器学习算法,在已标注图像集上建立模型,继而利用学习到的知识判 断和划分视觉对象所属的类别。这一做法通常需要大量标注图像用于模型训练过 程,而为这些图像添加精确的标注信息需要花费大量的人力、物力,因此,迫切 需要充分利用标注者资源,减少人工标注代价,旨在以尽量低的标注代价建立较 高精度的模型。
为了更加有效地收集和利用图像的标注信息,主动学习算法提供了一种解决 途径。算法随机选择少量图像并获取其标注信息,通过模型与标注者进行交互的 形式,利用已收集标注图像中的语义信息和知识,选择部分最有助于模型训练的 无标注图像提交标注者进行标注。主动学习算法的优势是通过让学习系统向标注 者进行提问的方式达到减少标注者工作量的目的,这不仅充分利用了珍贵的标注 者资源,而且更好的将人类知识迁移到学习系统中。因此,发掘高效的主动学习 算法对视觉对象的分类与检索研究具有重要的理论价值和现实意义。
目前,虽然部分主动学习算法已经用于减少对象分类与检索任务中的标注代 价,并取得了良好的效果,但是,这些算法中往往存在一些理想化的假设条件, 导致其不能很好地适用于噪声或者未标注图像数据较大条件下的学习任务。鉴于 这一点,本文以主动学习算法作为研究对象,在已有采样策略的基础上,结合统 计学理论,发掘噪声或未标注图像数据较大条件下有效的样例选择算法。目的是 以尽量低的标注和时间代价获得较高精度的分类模型,并以此为基础,构造有效 的主动学习算法模型应用于视觉对象分类与检索实践当中。主要的研究工作和创 新点如下:
(1)提出一种基于模型风险的加权样例选择算法 针对主动学习算法中训练数据与测试数据具有相同分布这一理想化假设条件,
提出一种基于模型风险的加权样例选择算法,旨在解决因分布差异导致的采样算
法效果下降,以及在给定标注代价条件下分类模型训练效果不理想的问题。算法 对每个样例设置权重,使用训练数据与无标记数据上模型风险的期望误差来估计 样例对应权重值,并根据该值选择最有助于分类模型训练的样例。算法与其它同 类方法进行了比较,实验结果证明分类模型的精度得到有效提高。
(2)提出一种批量选择样例的训练集构造方法 针对主动学习算法面临的因视觉对象数量多,但同类别对象数量稀少而造成
的正反例数量不平衡这一实际问题,提出一种批量选择样例的训练集构造方法。 目的是在相同标注代价条件下,克服大量反例对分类模型的不利影响,提高分类 模型的精度。算法利用分类模型风险,通过最小化模型风险的方差来构造训练分 布,并依据该分布选择样例,建立训练集。算法与其它同类方法进行了比较,实 验结果证明,在模型分类精度相同时,算法需要的标注代价更少。
(3)提出一种多标注者主动学习概率模型 针对主动学习算法中单一标注者必须能够提供准确无误的样例标记这一理想
化假设条件,提出一种标注噪声条件下多标注者主动学习概率模型,旨在减少标 注者标记质量对主动学习算法的影响。模型通过选择准确度高的标注者提供标记 和估计样例对应正确标记的方式达到同时减少标记代价和提高模型精度的目的。 实验结果表明,与其它同类方法相比,所提出概率模型有效减少了标注噪声的影 响,提高分类模型的性能。
(4)提出一种基于 Hash 技术的主动学习样例选择算法 针对未标注数据数量较大条件下主动学习算法选择样例时间开销大的实际问
题,提出一种基于 Hash 技术的样例选择算法,旨在快速返回所选样例,减少主动 学习分类模型所需时间。算法通过利用 Hash 技术选择分类模型权重,进而,获得 无标注样例与分类界面间近似距离,并依此选择样例用于训练。算法与其它同类 方法进行了比较,实验结果证明,所提出算法可以有效减少训练所消耗的时间。
关键词:主动学习;重要性采样;代价敏感采样;多标注者;Hash 技术;视觉对 象分类与检索
Ab
Abstract
哈尔滨工业大学工学博士学位论文
哈尔滨工业大学工学博士学位论文
-
- III -
-
- PAG
您可能关注的文档
- 组合电路set若干效应及软错误率分析-analysis of several effects and soft error rate of combined circuit set.docx
- 城市化进程对区域耕地生产力的影响分析——以黄淮海平原为例-impact of urbanization on regional cultivated land productivity a case study of huang - huai - hai plain.docx
- 城市更新中的建筑寿命分析——基于重庆的实地调查分析-analysis of building life in urban renewal —— based on field investigation and analysis in chongqing.docx
- 城市近期建设用地发展规模的预测方法研究以重庆都市区近期建设规划20062010为例-study on the prediction method of the development scale of urban construction land in the recent period taking chongqing metropolitan area's recent construction planning 20062010 a.docx
- 新奇特产品创意设计分析-analysis on creative design of new and unique products.docx
- 城市化进程对区域耕地生产力的影响研究——以黄淮海平原为例-the impact of urbanization on regional cultivated land productivity a case study of huang - huai - hai plain.docx
- 城市更新中的建筑寿命研究--基于重庆的实地调查分析-research on building life in urban renewal - based on field investigation and analysis in chongqing.docx
- 城市近期建设用地发展规模的预测方法研究---以重庆都市区近期建设规划2006-2010为例-research on the prediction method of the development scale of urban construction land in the recent period - taking chongqing metropolitan area's recent construction plan 2006 .docx
- 石为心化──中国石雕艺术和文人画意识之心性初探-on the mind of chinese stone carving art and literati painting consciousness.docx
- 城市社会空间与生态设施空间耦合机制研究——以西安为例-study on the coupling mechanism between urban social space and ecological facilities a case study of xi 'an.docx
- 重型商用车amt试验台关键技术分析-analysis on key technologies of amt test bench for heavy commercial vehicles.docx
- 砖混结构农房振动台试验分析-shaking table test analysis of brick - concrete structure rural house.docx
- 钻孔灌注桩咬合素混凝土桩围护结构体系分析-analysis of retaining structure system of cast - in - place bored piles with occlusal concrete piles.docx
- 城市色彩的历史传承——柳州柳东大道城市设计分析-historical inheritance of urban color —— analysis of liudong avenue urban design in liuzhou.docx
- 齿轮齿条式前轮转弯机构设计与分析技术研究-research on design and analysis technology of gear - rack front wheel steering mechanism.docx
- 城市生态湿地建设在生态城市发展中的作用和意义研究——以西安广运潭生态景区为例-the role and significance of urban ecological wetland construction in eco - city development —— a case study of guangyuntan ecological scenic area in xi 'an.docx
- 坐的思考座的设计——人的行为方式与户外坐憩空间的探索-the design of sitting and thinking seat - the exploration of human behavior and outdoor sitting and resting space.docx
- 中华绒螯蟹体表钟形钟虫形态学分析及其固着类纤毛虫病调查-morphological analysis and investigation of sessile ciliate disease of chinese mitten crab ( eriocheir sinensis ).docx
- 中频磁控和非平衡磁控放电特性及cr-dlc膜层制备研究-study on discharge characteristics of medium frequency magnetically controlled and unbalanced magnetically controlled discharge and preparation of cr - dlc film.docx
- 中国远程教育外语学习者学习策略分析-an analysis of learning strategies of foreign language learners in distance education in china.docx
文档评论(0)