主动式学习策略研究综述.docVIP

下载本文档

27
0
约4.37千字
约 6页
2016-09-29 发布于北京
举报
版权申诉

主动式学习策略研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

主动式学习策略研究综述.doc

主动式学习策略研究综述　　摘要：近年来，主动式学习策略越来越受到研究者们的关注，并且有了许多重要的研究成果。其核心思想是通过选择有效的训练样本，使得机器学习算法能在使用更少训练数据的情况下，同样能达到良好的性能。首先对有关研究成果进行综述，然后展望未来主动式学习策略可能的应用前景。　　关键词：主动式学习；确定性原则；成员性原则；样本选择；支持向量机　　中图分类号：G42 　　随着互联网技术的广泛应用，人们接触到的网络资讯日益膨胀，高效地处理海量信息并从中挖掘出有用信息的需求，显得日益迫切。研究者们提出了各种高效的机器学习算法，通过计算机进行信息处理与挖掘。但是这些机器学习算法的性能，却有赖于训练数据的质量和数量。所以标注训练数据的人工成本往往就成为机器学习算法应用的瓶颈。主动式学习策略提供了一种在保证机器学习算法性能的同时，通过选择有效未标注样本，进而最小化人工标注工作量的方法。主动式学习策略大体上可以分为（1）基于确定性原则[1][2]；（2）基于成员性原则[3][4]；两类主流方法。它们已经被广泛地应用于网络上的自然语言处理任务。下面将针对这两类现有的主动式学习策略方法及其应用的研究成果进行综述；然后对主动式学习策略的应用研究进行展望。　　1 基于确定性原则的主动式学习策略及应用　　应用基于确定性原则的主动式学习策略进行机器学习算法训练时，首先需要选择小部分样本进行标注，这些样本被称为种子样本；然后使用这些种子样本训练出初始模型；接着使用初始模型，计算出其它未标注样本的确定性分值，再根据准则从中选择出一部分样本再进行标注；最后重新训练模型，如此反复迭代，直到结束条件满足。　　SchohnCohn[1]提出了一种简单的主动式学习策略用于训练支持向量机，极大地提高了支持向量机的泛化能力，并在书面文档分类任务中进行了验证。研究结果发现，只用该主动式学习策略选择出来的小部分样本，训练出来的支持向量机模型，其性能强于使用整个数据库训练出来的模型。总所周知，支持向量机的训练时间随着训练数据量的增加而大幅度增加，因此，该主动式学习策略能更高效地训练高性能的支持向量机模型。TongKoller[2]也应用了该策略进行支持向量机的训练。　　基于确定性原则的主动式学习策略已经应用于不同的自然语言处理任务中，比如：语音理解[5]，信息抽取[6]，多媒体检索[7]等。Turetal.[5]将基于确定性原则的主动式学习策略与半监督学习算法相结合，以进一步减少训练模型所需的标注样本，并在语音理解任务中进行了验证实验。基于确定性的主动式学习策略同样也被应用于自动语音识别任务当中[8][9]。　　2 基于成员性原则的主动式学习策略及应用　　应用基于确定性原则的主动式学习策略进行分类算法训练时[4][10]，首先选取若干组不同的分类算法，使用种子样本进行初始模型的训练；然后使用初始模型对未标注样本进行类别预测，再选取那些被不同算法训练出来的模型预测类别结果差异性的样本，进行人工标注；最后，将新标注的样本放入训练数据库，重新再训练模型，如此反复迭代，直到结束条件满足。　　Seungetal.[11]提出了一种成员问询投票机制的主动式学习策略。Freundetal.[12]进一步分析了这一策略。他们通过从一组随机输入串中过滤信息量高的问询。研究结果显示：如果采用基于两位成员的委员会投票机制算法，它能够取得正向的信息增益，那么其预测误差将随着询问数目的增加而指数式的减小，特别是用于神经网络算法中感知元的学习。　　Argamon-EngelsonDagan[4]将这一策略进行了规范化，并应用于概率框架的分类算法训练当中。进一步他们引入了投票熵值用于量化委员会成员之间的分歧性。最后在词性标注任务中进行了实验验证。该策略的一个不足之处就是为了训练多种不同的分类器，需要将样本的特征集拆分为若干部分。这样，可能使得原本可以用于训练出一个高性能分类器的样本，最后只训练出若干个低性能的分类器。为了克服这一不足，AbeMamitsuka[13]提出了新的基于问询投票机制的策略，即：将问询投票与Boosting和封装机制相结合。　　3 总结与展望　　本文对近年来主动式学习策略应用领域所取得的研究成果进行了全面的综述。基于主动式学习策略的机器学习算法训练，能够帮助人们尽可能少的标注训练数据，更快速地训练出高性能的机器学习模型。在未来几年中，它将成为本领域研究热点和前沿。如何将该策略应用到更多不同的机器学习算法训练当中，尤其是在大数据背景下，如何克服模型训练效率低下的瓶颈等都将成为研究者关注的主要方向。　　参考文献：　　[1]G.SchohnandD.Cohn，Lessismore：Activelearningw