- 27
- 0
- 约2.85万字
- 约 38页
- 2018-05-18 发布于上海
- 举报
基于不确定性的主动学习算法分析-analysis of active learning algorithm based on uncertainty
优秀毕业论文
精品参考文献资料
河北大学工学硕士学位论文
第 1 章 绪 论
PAGE 30
PAGE 29
第 1 章 绪 论
1.1 研究背景与意义
随着科技的发展,计算机和网络技术的普遍使用,使人们可以很容易获得海量数据。 如何从这些海量数据中发现并抽取知识是人工智能的研究背景。由于数据本身存在的复 杂性,且海量数据具有冗余和不完备的特点,给智能信息的处理带来了前所未有的挑战。 机器学习使用计算机来模拟人脑思维,通过不断地进行学习和训练,从而具有智能处理 能力并将其应用于处理未知信息中,它的关键就是如何学习才能具有智能处理能力。很 多学者对此进行了研究,根据获得的数据是否具有类别信息,分为监督学习和无监督学 习。在大多数的传统监督学习问题中,需要外界提供大量已标注的样例,将这些样例作 为训练集,按照某种学习算法进行训练来得到分类模型。分类模型可以看作是一个分类 函数,该函数能把未知数据映射到给定类别中的某一个。常用的算法有贝叶斯分类模型、 k 近邻分类、神经网络、决策树和支持向量机等。
然而,在一些实际应用中,获得大量已标注的样例是非常困难、昂贵或耗费时间的, 而取得未标注的样例则相对容易。例如,对疾病信息或基因序列进行诊断或标注,要由 医学和生物学专家来完成,这个过程中,标注越多则付出的代价也越大,而获得未标注 信息本身只需要较少代价。在这种学习背景下,使用传统的监督学习模式生成满足一定 要求的分类器存在困难,主动学习的框架被提出。例如,基于不确定性的主动学习首先 根据少量已标注的样例进行学习得到分类器,然后再从未标注样例中主动选择信息量较 大的样例,交于专家进行标注;标注后的样例置于训练集中继续训练,依次循环,最终 达到降低学习算法样本复杂度和提高分类器性能的目的。
主动学习过程中,关键是如何从大量的未标注样例中挑选最有价值的样例进行标 注。由于分类器开始时是根据少量已标注样例进行训练得到的,学习到的知识是不充分 的,判断未标注样例会存在不确定性,因此一种常用的主动学习的样例挑选方法是利用 这种不确定性来进行样例选择,策略倾向选择那些当前分类器最无法确定其类别的样例 进行标注。
Valiant[1]阐述了合理地选取样例能够降低所需的训练样本数目,这为主动学习过程
中的样例挑选提供了一定理论基础。主动学习的目标是在保证分类器性能前提下使用尽
可能少的训练样例。随着主动学习研究的发展,其应用领域也越来越广阔,涉及到文本 分类、语音识别、图像检索、基因分析和入侵检测等。
1.2 课题的国内外研究现状
主动学习的框架一般由两部分组成:学习引擎和搜索引擎。学习引擎建立一个基本 分类器,搜索引擎进行样例选择。学习引擎建立的基本分类器实际上是利用监督学习方 法对标注样例进行训练得到,根据实际问题可使用不同的分类模型,如神经网络,最近 邻规则,决策树,粗糙集,支持向量机等。而根据未标注样例的获得方式不同,样例选 择算法分为基于流的和基于池的主动学习。在基于流的主动学习中,未标注样例依次提 交给选择算法,由选择算法决定是否交给专家进行标注,不标注则丢弃。基于池的主动 学习则是从大量未标注样例中,按照一定的样例挑选策略选择有价值的样例,将其提交 给专家进行标注。
根据样例选择原理的不同,将搜索引擎算法主要分为基于版本空间缩减、基于不确 定性缩减和基于期望误差降低三种方法。学习引擎和搜索引擎两个部分交替工作,逐步 使分类器性能提高,直到达到预定目标停止,主动学习在减低学习所需样本数目方面比 传统被动学习具有优势,得到了很多学者的关注和研究。
基于版本空间缩减的方法中,Seung[2]等人提出了 QBC(Query by Committee)方法, 首先从当前变型空间(Version Space)中随机挑选几个假设,然后对未标注样例投票, 选择分歧最大的样例提交给专家进行标注。这是较早的样例选取策略,在此理论基础上, 为了使委员会成员更加客观,有学者引入分类器集成的思想,提出了改进的 QBag 和 QBoost[3]等方法。龙军[4]还提出了基于委员会的误分类采样算法,选择最大可能性被误 分的样例进行标注,来达到过半缩减版本空间的目的。而针对具体问题,构建版本空间 的基分类器可以选择神经网络、贝叶斯和支持向量机[6]等,并应用于自然语言处理[5], 语音识别等。
基于期望误差降低的方法中,倾向挑选最大程度降低分类器泛化误差的样例,算法 首先需要给出损失函数作为评价标准;然后根据损失函数对未标注样例做出评价;选择 能够最大程度降低分类器期望误差的样例进行标注。Roy 等人[7]最早提出期望误差降低 的样例选择思想,对在朴素贝叶斯分类模型框架下的文本分类问题进行研究。Tong[8]则
考虑将基于期望误差降低的方法应
您可能关注的文档
- 基于zy-3影像的北京市六环以内城市用地信息提取及特征分析-extraction and feature analysis of urban land use information within the sixth ring road in beijing based on zy - 3 image.docx
- 基于z公司的私募股权投资分析-analysis of private equity investment based on z company.docx
- 基于z规格的软件缺陷形式化方法-formal method of software defects based on z - specification.docx
- 基于zynq-7000平台的多协议uhf rfid读写器软件设计-software design of multi-protocol uhf rfid reader based on zynq - 7000 platform.docx
- 基于zy3卫星影像的城市建筑用地提取与变化检测分析-extraction and change detection analysis of urban building land based on zy3 satellite image.docx
- 基于z源逆变器的pmsm母线电压调整控制的分析-analysis of pmsm bus voltage adjustment control based on z - source inverter.docx
- 基于β-ca3po42结构荧光粉的制备及性能研究-preparation and properties of fluorescent powder based on β - ca3po4 structure.docx
- 基于α稳定分布的volterra自适应滤波算法的分析-analysis of volterra adaptive filtering algorithm based on α stable distribution.docx
- 基于β-环糊精的phgsh响应羧甲基壳聚糖胶束的研究-study on ph gsh - responsive carboxymethyl chitosan micelles based on β -cyclodextrin.docx
- 基于α-叠氮肉桂酸酯合成异噁唑和中氮茚衍生物的方法学分析-methodological analysis of synthesis of isoxazole and indolizine derivatives based on α - azinone cinnamate.docx
- 小区绿化施工协议书.docx
- 墙面施工协议书.docx
- 1 古诗二首(课件)--2025-2026学年统编版语文二年级下册.pptx
- (2026春新版)部编版八年级道德与法治下册《3.1《公民基本权利》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《4.3《依法履行义务》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.2《按劳分配为主体、多种分配方式并存》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.1《公有制为主体、多种所有制经济共同发展》PPT课件.pptx
- 初三教学管理交流发言稿.docx
- 小学生课外阅读总结.docx
- 餐饮门店夜经济运营的社会责任报告(夜间贡献)撰写流程试题库及答案.doc
最近下载
- 2025年陕西省汉中市某中学小升初入学分班考试英语考试真题含答案.docx VIP
- DB31T 1236-2020 未成年人司法社会工作服务规范.docx VIP
- 宣贯培训(2026年)《DLT 2772—2024火力发电厂输煤廊道巡检装置技术规范》.pptx VIP
- 2026年北京中考白皮书.pdf VIP
- 2025届苏锡常镇高三(一模)数学试题及参考答案.pdf VIP
- 《人工智能辅助的翻译技术》课件.ppt VIP
- 沉浸式非遗体验—宋代点茶.pptx VIP
- PET Complete精品教学课件 unit 3 having fun.pptx
- 年产2万吨马铃薯全粉项目可行性研究报告.docx
- 《计算机网络基础》课件——OSI参考模型.pptx VIP
原创力文档

文档评论(0)