- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言处理导论第七章 信息抽取;信息抽取概述;7;目录
Contents;7.1;7.1;7.1;7.1;目录
Contents;7.2;7.2;7.2;7.2.1;7.2.1;7.2.1;7.2.1;7.2.1;7.2.1;7.2.1;7.2.1;7.2.1;7.2.1;7.2.1;7.2.1;7.2.1;7.2.1;7.2.1;7.2.1;7.2.1;7.2.2;7.2.2;7.2.2;7.2.2;7.2.2;7.2.2;7.2.2;7.2.2;7.2.3;7.2.3;7.2.3;7.2.4;7.2.5;目录
Contents;7.3;7.3;7.3;7.3;7.3;7.3.1;7.3.1;7.3.1;7.3.1;7.3.1;7.3.1;7.3.1;7.3.1;7.3.1;7.3.1;为了解决上述问题,文献[356]提出在向图卷积网络输入非线性信息之前对其隐激活进行标准化,并向图中的每个节点添加自循环,具体做法如下:;使用x = x1...xn 表示输入句子,其中xi 是第i 个单词。头实体表示为xs = xs1 ...xns ,尾实体表示为xo
= xo1 ...xno 。假如预先给定一个关系集合R,并且已经给出x、xs、xo,关系抽取的目标就是预测实体间的关系r ∈ R 或是“无关系”
在词向量上应用了L层GCN之后,可以获得每个单词的隐藏表示,这些单词在依存树中直接受其距离不超过L条边的邻居节点的影响。为了在关系抽取任务中利用这些词表示,首先定义句子表示:;7.3.2;7.3.2;7.3.2;7.3.2;7.3.2;7.3.2;7.3.2;7.3.2;7.3.2;7.3.3;7.3.3;7.3.3;7.3.3;7.3.3;7.3.3;7.3.3;7.3.3;7.3.4;7.3.5;目录
Contents;7.4;7.4.1;7.4.1;针对事件触发词识别,由于在事件描述中,触发词往往由明显的单个词语组成,在ACE2005数据集中,就有超过95%的触发词都为单个单词,所以可以将触发词识别转换为词分类任务。
但是,由于文本中词语的数量非常多,逐个分类会非常影响触发词的提取效率,并且这种情况下正负例比例相差过于巨大。因此,需要根据一些规则对词语进行预先过滤。
由于触发词词性通常是由名词、动词、形容词组成,所以可以利用词性信息对词语进行预先筛选。使用词性标注算法获得输入文本中词语的词性信息后,再对相应词性的词进行分类。
触发词识别主要由两个阶段组成:(1) 采用二分类分类器,将经过词性标注筛选后的词依次输入在训练集中训好的二分类分类器中,判断该词是否为触发词;(2) 采用多分类模型判断候选触发词的类型。
在事件论元识别方面,事件论元识别可以简化为一个成对分类(Pair Classification)任务,将包含事件描述的句子与同句中的事件论元内容组成待分类对,再利用分类模型判断论元角色。;采用??水线框架,将事件抽取分解为多个子任务的模式容易造成错误传递的问题,同时传统机器学习方法还需要依赖预先设计好的语言工具来提取句子中的词汇和上下文特征。
基于神经网络的联合事件抽取方法需要自主地标记事件触发词的位置,并对标记出的事件类别进行预测。这种改进有助于消除模型对预处理的过度依赖以及流水线架构的错误传递问题问题,并获取更加通用的事件抽取模型。
JRNN方法,使用循环神经网络(RNN)来获取句子中不同事件触发词和事件论元间的长距离依赖关系;编码层由句子编码层和基于RNN的特征编码层两部分构成,以图中的句子“A man died when a
tank fired in Baghdad”为例,在句子编码层中,输入文本被转化成由三个向量的拼接而成的编码结果:
词编码(Word Embedding):使用预训练的词嵌入表来获取每个词的向量表示
实体类型编码(Entity Type Embedding):通过查找预训练的实体类型嵌入表,使用BIO注释模式来提供当前词的实体信息
依存关系编码(Dependency Relation Embedding):使用训练得到的依存句法树获取某个词相对于其他词的依赖关系特征
为了在模型的预测层中联合预测触发词和论元角色,JRNN 利用额外的记忆向量来编码触发词标签和论;7.4.1;开放域事件抽取(Open Domain Event Extraction)其目标是在没有任何预定义域假设的情况下,从 非结构化文本中挖掘提取有意义的事件信息。
与限定域事件抽取任务不同,在没有预先定义的事件类型以及对应的事件论元情况下,早期开放域事件抽取目标不是精确地提取事件要素,而是使用聚类、语义分割等方法,对文本内容进行分析基础上检测并跟踪事件。
您可能关注的文档
最近下载
- 急性左心衰竭的临床表现及处理原则.pptx VIP
- 1200PLC+汇川PN伺服报文3使用方法详解.docx VIP
- 高标准农田项目施工部项目管理班子的人员岗位职责工.docx VIP
- 苏教版(2024版)七年级上册生物期末复习知识点清单.docx VIP
- 基于项目的温室气体减排量评估技术规范 太阳能热利用 编制说明.pdf VIP
- 2025年自动驾驶出租车(Robotaxi)商业化试点与运营模式优化报告.docx
- 石家庄铁道大学2022届毕业生质量报告.docx VIP
- 2024-2025学年小学美术一年级上册(2024)桂美版(2024)教学设计合集.docx
- Por Una Cabeza 一步之遥(总谱)Carlos Gardel曲曲谱.pdf VIP
- 量子信息与量子计算PPT课件.ppt VIP
文档评论(0)