- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Boosting学习算法 林磊 主要内容 1.背景和意义 2.算法概况 3.算法应用 背景和意义 Boosting 作为一种通用的学习算法,可以提高任一给定算法的性能。Kearns and Valiant最先指出,在PAC学习模型中,若存在一个多项式级的学习算法来识别一组概念,并且识别率很高,那么这组概念是强可学习的;而如果学习算法识别一组概念的正确率仅比随机猜测的略好,那么这组概念是弱可学习的。如果能将一个弱学习算法提升为强学习算法,那么在学习概念时,只要找到一个比随机猜测略好的弱学习算法,就可以将其提升为强学习算法,而不必直接去找通常情况下很难获得的强学习算法 PAC学习模型 归纳学习的计算理论: Valiant ——关于可学习性的理论:概率地、近似地、正确地可学习的(PAC Probably、Approximately、Correct) Adaboost算法 Schapire和Freund 提出了一个新的boosting 算法:AdaBoost算法,它解决了早期boosting 算法的许多不足 给定: 其中, 初始化: For (1,T): 1. 利用权值 训练弱学习算法。 2. 得到弱假设: 3. 选择: 4. 令: 5. 更新: 其中, 为归一化常数, 使得为一概率分布 输出: AdaBoost算法的基本理论特性 具有减小训练错误的能力 算法训练错误由以下不等式界定: 其中, Adaboost算法系统错误 算法应用 1.文本分类 2.模式识别 文本分类 与德国人工智能研究中心DFKI合作研究:基于信息抽取和文本生成的多语种信息检索模型。 目前文本分类存在的问题 初始构造一个弱分类器较容易,但是进一步提高其性能则较困难。主要在于如何优化各种参数。 实验结果 实验结果分析 1.从表中可以看到C 4.5出现了过拟和现象。测试集分类的准确率较训练集降低很多。 2.而Adaboost方法则有明显的改善,主要因为,该方法在各类别间留有一定的margin。 模式识别 实验结果 谢 谢! * * m为样本的个数,d为弱假设空间的VC维数(VC维数是假设空间复杂性的一种标准的度量),T为算法循环次数 文档 文法分析与句法语义标注 文档主体分类模块 信息抽取模块 95% 97% Precision 94% 97% Recall AdaBoost over C 4.5 84% 92% Precision 83% 90% Recall C 4.5 500 500 测试文档数量 开放测试 封闭测试 测试方法 分类器性能比较 分类器 Recogn. (首选) 52.35% 62.80% 64.09% e1 e2 e3 E1 72.28%
文档评论(0)