汉语语义可计算模型研究.pptVIP

下载本文档

3
0
约1.28千字
约 16页
2017-09-11 发布于重庆
举报
版权申诉

汉语语义可计算模型研究.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Boosting学习算法林磊主要内容 1.背景和意义 2.算法概况 3.算法应用背景和意义 Boosting 作为一种通用的学习算法，可以提高任一给定算法的性能。Kearns and Valiant最先指出，在PAC学习模型中，若存在一个多项式级的学习算法来识别一组概念，并且识别率很高，那么这组概念是强可学习的；而如果学习算法识别一组概念的正确率仅比随机猜测的略好，那么这组概念是弱可学习的。如果能将一个弱学习算法提升为强学习算法，那么在学习概念时，只要找到一个比随机猜测略好的弱学习算法，就可以将其提升为强学习算法，而不必直接去找通常情况下很难获得的强学习算法 PAC学习模型归纳学习的计算理论： Valiant ——关于可学习性的理论：概率地、近似地、正确地可学习的(PAC Probably、Approximately、Correct) Adaboost算法 Schapire和Freund 提出了一个新的boosting 算法：AdaBoost算法,它解决了早期boosting 算法的许多不足给定：其中，初始化： For (1,T): 1. 利用权值训练弱学习算法。 2. 得到弱假设: 3. 选择： 4. 令： 5. 更新：其中，为归一化常数，使得为一概率分布输出： AdaBoost算法的基本理论特性具有减小训练错误的能力算法训练错误由以下不等式界定：其中， Adaboost算法系统错误算法应用 1.文本分类 2.模式识别文本分类与德国人工智能研究中心DFKI合作研究：基于信息抽取和文本生成的多语种信息检索模型。目前文本分类存在的问题初始构造一个弱分类器较容易，但是进一步提高其性能则较困难。主要在于如何优化各种参数。实验结果实验结果分析 1.从表中可以看到C 4.5出现了过拟和现象。测试集分类的准确率较训练集降低很多。 2.而Adaboost方法则有明显的改善，主要因为，该方法在各类别间留有一定的margin。模式识别实验结果谢谢！ * * m为样本的个数，d为弱假设空间的VC维数（VC维数是假设空间复杂性的一种标准的度量），T为算法循环次数文档文法分析与句法语义标注文档主体分类模块信息抽取模块 95% 97% Precision 94% 97% Recall AdaBoost over C 4.5 84% 92% Precision 83% 90% Recall C 4.5 500 500 测试文档数量开放测试封闭测试测试方法分类器性能比较分类器 Recogn. (首选) 52.35% 62.80% 64.09% e1 e2 e3 E1 72.28%