集成学习中若干关键问题的研究-计算机软件与理论专业论文.docxVIP

集成学习中若干关键问题的研究-计算机软件与理论专业论文.docx

  1. 1、本文档共99页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要分类是机器学习和数据挖掘中的一项重要任务,在现实生活中有着广泛的应 摘要 分类是机器学习和数据挖掘中的一项重要任务,在现实生活中有着广泛的应 用。例如,根据邮件的标题和内容判断其是否为垃圾邮件,根据病人的各项检测 指标判断其是否患有某种疾病等。目前已经提出了许多分类学习算法,如决策树、 贝叶斯网络、人工神经网络、支持向量机等。 集成学习通过训练若干有差异的学习器,并将它们的预测结果进行合成。相 对于单个学习器,集成学习算法在大多数情况下可以显著提高学习系统的泛化能 力,因此对集成学习理论和算法的研究一直是机器学习领域的一个重点和热点。 为了构造一个强的集成学习系统,现在一般认为,集成中各个体学习器应该 具有较高的精度并且个体之间具有较高的差异度。目前已经提出了许多集成方 法,如Bagging、AdaBoost、Random Subspace、Random Forest等。虽然这些算法 获得了广泛的关注,并在许多现实的应用中取得了良好的效果,但是仍然存在许 多关键问题需要改进和完善,其中包括:Bagging算法只适用于不稳定的分类器; AdaBoost算法容易过拟合有噪声的训练数据因而健壮性较差,同时不支持并行 化;Random Subspace仅适用于含有大量冗余特征的数据;对于一些特定的学习 算法如朴素贝叶斯、支持向量机等,现有集成算法的提升能力均十分有限,等等。 这些问题表明我们有必要设计基于其它思路的集成学习算法以弥补现有算法的 不足。 本文在分析现有集成算法现状的基础上,围绕基于处理输入属性和类别属性 以设计有效的集成算法问题展开了深入的研究,另外还研究了中心化矩阵广义逆 的在线更新问题。具体来说,本文的主要工作和创新点如下: 1.研究了基于多任务学习思想的决策树集成算法,提出了一种新的决策树 集成算法MTForest。该算法通过枚举使用每个输入属性作为辅助任务和类别属性 来共同决定决策树构建过程中每个节点的最佳划分,以建立集成中的个体决策树 分类器。 2.分析了现有基于处理类别标记的集成算法的不足,首次提出了能够同时 适用于两类和多类学习问题的基于处理类别标记的集成算法MACLEN。该算法 通过枚举每个输入属性和类别属性来构建一系列具有不同偏置的新类别标记的 集合,通过对每个新的类别标记表示的问题进行学习得到若干有差异的个体分类 器,最后将它们对新样例的预测结果进行结合作为集成的最终输出。 3.研究了基于弱化朴素贝叶斯条件独立假设的集成算法,提出了完全随机 贝叶斯分类器集成算法RBNC。该算法使用随机搜索的方式来构建集成中的个体 分类器,即在朴素贝叶斯的结构之上,使用完全随机化的方式确定每个属性的父 节点。该算法的优点是避免了结构学习的高计算复杂度,弱化了条件独立假设以及通过集成避免了个体随机结构导致的高方差。 节点。该算法的优点是避免了结构学习的高计算复杂度,弱化了条件独立假设以 及通过集成避免了个体随机结构导致的高方差。 4.此外,本文还研究了中心化矩阵广义逆的在线更新问题,首次给出了当 向矩阵中插入-N(行)数据或删除已有的一列(行)数据时,其对应的中心化 矩阵广义逆的精确更新公式。同时我们将此结果应用到在线维数约简问题中,提 出了在线最小二乘线性判别分析(LS.OLDA)算法。 关键词:集成学习、多任务学习、决策树、朴素贝叶斯、随机化、广义逆矩阵 中图分类号:TP309.2 AbstractClassification Abstract Classification iS one of the most important tasks in machine learning and data mining,and is widely used in real world applications.For example,it call be used to judge whether an email is jun坶or not according to its title and content;to judge whether a patient is positive or not according to his or her clinical measurements,etc. Many classification algorithms have been proposed,such as decision tree,bayesian network,neural network,support vector machine,etc. Ensemble learning algorithms train multiple base learners and then combine thei

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档