命名实体间语义关系抽取研究.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

GOLD以类别作为聚类依据RAND随机采样SEQ顺序采样聚类KM:K中值HAC:分层聚类SC:谱聚类AP:仿射传播聚类SamplingstrategiesP(ΔP)R(ΔR)F1(ΔF1)GOLD79.5(7.8)72.7(2.1)76.0(4.8)RAND*71.9(3.7)69.7(0.1)70.8(1.8)SEQ*71.9(2.6)65.2(0.1)69.3(1.3)KM*73.6(2.1)72.3(0.3)72.9(1.2)HAC79.0(10.2)73.0(1.1)75.9(5.6)SC*72.3(2.1)72.1(0.4)72.2(1.2)AP75.7(2.5)72.0(0.4)73.7(1.4)*表示做10次测试的平均值2.2弱指导关系抽取:自举学习ACERDC2004关系大类*标注传播算法(LP,LabelPropagation)基本原理一种基于图的弱指导学习方法,将标注实例和未标注实例表示为连通图中的结点。将标注信息从任意一个结点通过它的邻接边传递到它的邻接结点,并不断重复以上迭代过程,最后当传播过程聚合时就可以推断出未标注实例的标注信息。LP算法存在问题对数据不平衡比较敏感,即不同类的实例数目相差比较大时,性能会大大下降;计算成本和内存需求较大(特别是语料规模巨大的时候)2.2弱指导关系抽取:标注传播算法*基于自举矢量的LP算法动机:利用自举算法产生关键实例在SVM二元分类器中,支撑矢量作为关键实例决定了超平面位置,而其余矢量对目标函数则没有影响。策略选择SVM这一基本分类器从已标注实例和未标注实例中找出一定数量的加权支撑矢量。假设这些关键实例能够很好地保留所有已标注和未标注实例的自然簇结构。从所有已标注和未标注实例中自举产生的加权支撑矢量以及留在未标注实例中的难于可靠分类的困难实例2.2弱指导关系抽取:标注传播算法*基于协同训练的关键实例产生算法BEGINREPEATFORi=1toPDO从原始特征集F产生投影特征空间Fi;将L和U映射到特征空间Fi,从而产生Li和Ui;在Li上为每一个关系类型rj一个训练SVM分类器SVMij;在Ui上对每一个关系类型rj应用分类器所学到的模型SVMij;ENDFOR在U中找出具有最高分类一致性(阈值为70%)和最高平均置信度(阈值为1.0)的(最多)S个实例;将这些实例从U移到L;UNTIL没有足够多(小于10)的实例从中可靠地识别出;返回最后一次训练时分类器SVMij所得到的支撑矢量(包括正例和负例)及其它们的权值信息(a*y的绝对值),这些自举产生的支撑矢量集作为LP算法的标注实例;返回U中剩余的实例(即不能够被自举学习可靠识别出的困难实例)作为LP算法中的未标注实例;ENDL:标注数据集U:未标注数据集S:每次迭代加入的数据集大小(设为100)P:视图数(特征投影)r:类型数(包括所有关系小类和无关系)2.2弱指导关系抽取:标注传播算法*采用关键实例的标注传播算法:一个标记矩阵,其中表示顶点具有标记(包括没有关系)的概率;:的上面个已标注的实例;:的下面个未标注的实例;:一个矩阵,其中每个元素表示从结点跳转到结点的概率;BEGIN初始化:1)设置迭代索引;2)使成为每一个结点的软标记(可介于0和1之间);3)使与标注数据中的标记(包括大类/小类以及没有关系)相容,其中=表示自举产生的支撑矢量具有标记或者是0的归一化权值;4)初始化;REPEAT计算,将每一个结点的标记传播到邻近结点;重置标注数据,即用代替;UNTIL收敛(比如收敛于);对每一个未标注实例,赋予标记cj=;END2.2弱指导关系抽取:标注传播算法*2.1指导性关系抽取基于特征向量的关系抽取基于树核函数的关系抽取结构化信息和实体语义特征的复合平面特征和结构化特征的复合*特征选取:从自

您可能关注的文档

文档评论(0)

176****8738 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档