主动学习用于共指消解.pptVIP

下载本文档

0
0
约7.61千字
约 10页
2024-12-29 发布于北京
举报
版权申诉

主动学习用于共指消解.ppt

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

以mention-pair模型为例共指消解*首先，对于全部候选的mention对判断其共指或不共指，得到mention集合中每个mention对之间的共指概率值01然后，利用简单的Link-first或Link-Best等算法，确定共指关系，或者依靠更加复杂的传递性约束以及全局优化(比如图分割、谱图理论等)，来构建聚类02MUC评价方法：计算共指对的准确率、召回率和F值03共指消解*mention-pair模型中的共指特征相关评测共指消解*1ACE评测(目前已取消)中的实体检测和跟踪任务，2008年为最后一届，2009年开始被TAC所取代2TAC(TextAnalysisConference)2009和2010评测中的KBP(Knowledgebasedpopulation)任务3TREC2010评测中的entitytrack任务4SemEval2010评测中的多语言共指消解任务目录*主动学习用于共指消解03主动学习02共指消解问题介绍01主动学习*基本假设：学习器在数据中有选择的进行提问，以能够使用较小的数据集达到同样的性能。为什么需要主动学习存在大量未标注的数据有些问题进行人工标注的成本很高，能否只选择一部分未标注样本进行标注，而能够达到全体样本都标注的情况下同样的性能表现NAACL-HLT2009和2010连续两年，组织了主动学习用于NLP的workshop。ICML2009组织了一次主动学习的tutorial主动学习*过程如下以基于池的主动学习过程为例主动学习*主动学习通常的评价方法（以文本分类为例）随机和不确定性采样两种选择未标注实例方法的效果比较主动学习*场景两种场景：基于流和基于池样本复杂度计算选择策略五种选择策略：基于不确定性选择、QBC、期望损失减小等等一些相关问题与KNN的区别、与半指导学习的区别、停止条件场景*基于流的主动学习实例从数据源中以流的形式一次获得一个，学习器判断是否选择该实例或放弃该实例比如设定阈值基于池的主动学习同时考虑池中的全部实例，学习器根据一定的信息准则从中选择实例场景*一个通常的基于池的主动学习算法选择策略*基于不确定性的选择(Uncertaintysampling)最常用的选择框架就是不确定性采样，有如下一些方法边距采样(Marginsampling)最不确定(Leastconfident)熵(Entropy)——最常用的不确定性选择策略选择策略*QBC(Query-by-Committee)在当前标注集上训练了一组模型(Committee)，它们针对每一个未标注实例预测其标记，选择预测结果最不一致的那个未标注实例关于这组模型的选择不一致性的评价办法投票熵平均KL距离(averageKullback-Leiblerdivergence)期望模型变化(Expectedmodelchange)选择策略*选择的实例要能够在获知它的标记后，对模型带来最大的改变01这个选择框架下的一个例子是EGL方法，即expectedgradientlength02选择策略*期望损失减小(Expectederrorreduction)通过增加实例到标注集中，选择能够使模型在未标注集上期望损失最小的那个实例最小化期望0-1损失最小化期望log损失选择策略*密度加权方法选择的实例，不仅应该是不确定性高的，也应该是有代表性的其中，第一个函数是根据一些基本选择策略计算的x的不确定性，第二个函数是x与未标注集的平均相似度以下面的例子解释该方法有效处理outlier的问题样本复杂度计算*根据PAC理论，为获取期望错误率小于ε的分类器，传统监督学习算法的样本复杂度为，主动学习需要获得比这更低的样本复杂度才有实际意义A关于这方面的介绍需要很多统计学习理论方面的内容，2008年的COLT(21stAnnualConferenceonLearningTheory)有一篇文章TheTrueSampleComplexityofActiveLearning有详细的介绍B主动学习与K近邻算法的区别相关问题*K近邻：如果一个未标注样本在特征空间中的k个最相似(即特征空间中最邻近)的已标注样本中的大多数属于某一个类别，则该样本也属于这个类别1主动学习可以通过未标注样本在特征空间中的分布情况，有选择地进行人工标注，已解决K近邻算法中已标注样本数据的偏斜分布对算法效果产生的影响22010-03-302010-0