- 1、本文档共99页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要分类是机器学习和数据挖掘中的一项重要任务,在现实生活中有着广泛的应
摘要
分类是机器学习和数据挖掘中的一项重要任务,在现实生活中有着广泛的应 用。例如,根据邮件的标题和内容判断其是否为垃圾邮件,根据病人的各项检测 指标判断其是否患有某种疾病等。目前已经提出了许多分类学习算法,如决策树、 贝叶斯网络、人工神经网络、支持向量机等。
集成学习通过训练若干有差异的学习器,并将它们的预测结果进行合成。相 对于单个学习器,集成学习算法在大多数情况下可以显著提高学习系统的泛化能 力,因此对集成学习理论和算法的研究一直是机器学习领域的一个重点和热点。 为了构造一个强的集成学习系统,现在一般认为,集成中各个体学习器应该 具有较高的精度并且个体之间具有较高的差异度。目前已经提出了许多集成方 法,如Bagging、AdaBoost、Random Subspace、Random Forest等。虽然这些算法 获得了广泛的关注,并在许多现实的应用中取得了良好的效果,但是仍然存在许 多关键问题需要改进和完善,其中包括:Bagging算法只适用于不稳定的分类器; AdaBoost算法容易过拟合有噪声的训练数据因而健壮性较差,同时不支持并行 化;Random Subspace仅适用于含有大量冗余特征的数据;对于一些特定的学习
算法如朴素贝叶斯、支持向量机等,现有集成算法的提升能力均十分有限,等等。
这些问题表明我们有必要设计基于其它思路的集成学习算法以弥补现有算法的 不足。
本文在分析现有集成算法现状的基础上,围绕基于处理输入属性和类别属性 以设计有效的集成算法问题展开了深入的研究,另外还研究了中心化矩阵广义逆 的在线更新问题。具体来说,本文的主要工作和创新点如下:
1.研究了基于多任务学习思想的决策树集成算法,提出了一种新的决策树 集成算法MTForest。该算法通过枚举使用每个输入属性作为辅助任务和类别属性 来共同决定决策树构建过程中每个节点的最佳划分,以建立集成中的个体决策树
分类器。
2.分析了现有基于处理类别标记的集成算法的不足,首次提出了能够同时 适用于两类和多类学习问题的基于处理类别标记的集成算法MACLEN。该算法 通过枚举每个输入属性和类别属性来构建一系列具有不同偏置的新类别标记的 集合,通过对每个新的类别标记表示的问题进行学习得到若干有差异的个体分类 器,最后将它们对新样例的预测结果进行结合作为集成的最终输出。
3.研究了基于弱化朴素贝叶斯条件独立假设的集成算法,提出了完全随机 贝叶斯分类器集成算法RBNC。该算法使用随机搜索的方式来构建集成中的个体 分类器,即在朴素贝叶斯的结构之上,使用完全随机化的方式确定每个属性的父
节点。该算法的优点是避免了结构学习的高计算复杂度,弱化了条件独立假设以及通过集成避免了个体随机结构导致的高方差。
节点。该算法的优点是避免了结构学习的高计算复杂度,弱化了条件独立假设以
及通过集成避免了个体随机结构导致的高方差。 4.此外,本文还研究了中心化矩阵广义逆的在线更新问题,首次给出了当
向矩阵中插入-N(行)数据或删除已有的一列(行)数据时,其对应的中心化 矩阵广义逆的精确更新公式。同时我们将此结果应用到在线维数约简问题中,提 出了在线最小二乘线性判别分析(LS.OLDA)算法。
关键词:集成学习、多任务学习、决策树、朴素贝叶斯、随机化、广义逆矩阵 中图分类号:TP309.2
AbstractClassification
Abstract
Classification iS one of the most important tasks in machine learning and data mining,and is widely used in real world applications.For example,it call be used to judge whether an email is jun坶or not according to its title and content;to judge whether a patient is positive or not according to his or her clinical measurements,etc. Many classification algorithms have been proposed,such as decision tree,bayesian
network,neural network,support vector machine,etc.
Ensemble learning algorithms train multiple base learners and then combine thei
您可能关注的文档
- 基于.NET的就业信息推荐系统的设计与实现-软件工程专业论文.docx
- 环氧树脂-石墨烯氧化石墨烯防腐耐磨复合涂层的界面调控及其性能研究-材料学专业论文.docx
- 混合原油荧光特性的研究-环境科学与工程专业论文.docx
- 基于作业与标准的饲料行业成本管理-工商管理专业论文.docx
- 基于51核的SOC物理设计与验证-电路与系统专业论文.docx
- 基础组合隔震的框架结构抗震性能研究-结构工程专业论文.docx
- 埋入式抗滑桩的设计计算方法研究-道路与铁道工程专业毕业论文.docx
- 技术视野下的石柱土家族自治县碉楼形制研究-建筑技术科学专业论文.docx
- 吉非替尼按时辰给药对荷瘤裸鼠的药效学影响及机制研究-药理学专业论文.docx
- 基于Android平台的人体静态平衡功能测试系统的设计与实现-电路与系统专业论文.docx
- 半导体材料性能提升技术突破与应用案例分析报告.docx
- 半导体设备国产化政策支持下的关键技术突破与应用前景报告.docx
- 剧本杀市场2025年区域扩张策略研究报告.docx
- 剧本杀行业2025人才培训体系构建中的市场需求与供给分析.docx
- 剧本杀行业2025年人才培训行业人才培养模式创新与探索.docx
- 剧本杀行业2025年内容创作人才需求报告.docx
- 剧本杀行业2025年区域市场区域剧本市场消费者满意度与市场竞争力研究报告.docx
- 剧本杀市场2025年区域竞争态势下的区域合作策略分析报告.docx
- 剧本杀行业2025人才培训与行业人才培养模式创新.docx
- 剧本杀行业剧本创作人才心理素质培养报告.docx
最近下载
- 珠心算家长会(金)课件.ppt VIP
- 税法(第5版)课件 曹越 第1--5章 税法基本原理、增值税--- 企业所得税.pptx
- 手外科疾病诊断与治疗.pptx VIP
- 2021乒乓球比赛活动设计方案.docx VIP
- 医疗器械分类目录2002版.doc VIP
- JBT10216-2013电缆桥架标准将代替JBT10216-2000旧标准.docx VIP
- 非遗知识文化云肩知识介绍PPT课件.pptx VIP
- 人行地通专项施工方案.doc VIP
- 阳江核电厂疏浚(清淤)项目环境影响报告书.docx VIP
- 2025广西公需科目考试答案(3套,涵盖95_试题)一区两地一园一通道建设;人工智能时代的机遇与挑战.pdf VIP
文档评论(0)