信息抽取第5章详解.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 基于规则的信息抽取 5.1 原理 5.2 规则的建立 5.3 规则抽取系统 5.4 自由文本规则抽取系统讨论 5.5 规则抽取系统比较 5.6 规则抽取的困难 1 5.1 原理 基于规则的信息抽取分为信息抽取规则的学习(关键)和应用规则获取目标信息两个阶段。 信息抽取规则主要用于指明构成目标信息的上下文约束环境,如 CIRCUS 系统的抽取规则为概念节点,每个概念节点主要由触发词、激活条件(指定必须满足的语言模式)、硬性约束(强制性的语义约束)、软性约束(语义限制,可以违背)和目标信息位置这几项构成。 概念节点成为后面的 AutoSlog、CRYSTAL、AutoSlog-TS 等系统的通用性规则。 2 5.1 原理 由于规则较为集中地体现了领域知识和语言知识的融合,所以其构建过程即为知识的获取过程。根据手工参与程度的不同,规则的构建可分为三种类型:知识的手工编制、知识的半自动获取和知识的自动获取。 3 5.1 原理 1. 知识的手工编制 早期的信息抽取系统大多依赖于手工编制。如在MUC-3上使用的 CIRCUS 系统,所使用的三个知识库(即词典、案例框架和篇章分析规则库)都是用手工进行编制的。 手工编制:具有专门知识的人员、费时、容易出错、产生疏漏、代价较高、难以达到很高的语言覆盖面、可移植性差。 4 5.1 原理 2.知识的半自动获取 AutoSlog 系统需要用手工标注训练数据,并设置启发式搜索规则以获取锚点; PALKA 需要手工定义的框架、语义层次和相关的词典; CRYSTAL 除了要有手工标注数据,还要有语义层次和相关的词典; LIEP 则使用预先定义的关键词和对象识别器,依赖于用户的交互,给相关的语句分配事件类型。 共同点:依赖手工标注过的数据或通过与用户的交互过程,利用加工过的语料,学习语言的模式规则,是一种较为典型的机器辅助式知识获取。 5 5.1 原理 规则的学习主要有两种方式:一是由概括性规则开始,通过实例的学习获取规则,是从一般到特殊的过程,如 AutoSlog ,是一种自顶而下的学习法。二是由具体性的规则开始,通过合并获取得到具有覆盖能力的规则,是从特殊到一般的过程,如 CRYSTAL ,是一种从底向上的学习法。介于两者之间的,如 PALKA ,则既有从特殊到一般的泛化过程,又有从一般到特殊的具体化过程。 这里介绍自顶而下和从底向上两种典型的规则学习方法。 6 5.1 原理 (1)自顶而下的学习法, AutoSlog 利用通用的13条语言模式作为启发性的规则,由用户标注的例子发现语言模式的具体约束,实现通用规则的具体化。 自顶向下的学习过程如下: 步骤1 寻找到含有目标信息的语句,此语句一般由手工进行标记过。 步骤2 对此语句进行部分分析,识别出主语、动词词组、直接宾语和介词短语等。 步骤3 依次应用概括性的语言模式,得到该目标信息所对应的语言模式。 步骤4 如果存在适用的语言模式,则从目标信息上下文中产生相应的概念节点。 7 5.1 原理 (2)从底向上的学习法, CRYSTAL 利用覆盖算法实现从具体实例到获取通用的规则模式。 CRYSTAL 认为实例中所有的语法和语义都是对所抽取信息的一种约束,通过放松高度具体的约束,达到覆盖更多正面实例(含有要抽取信息的语句)、简化规则的目的。这种算法一般有较强的泛化能力,可扩充对未知文本的识别范围,学习过程归纳如下: 步骤1 从每个正面实例得到一个高度具体的概念节点的定义。 步骤2 对于每一个没有被规则所覆盖的概念节点 D 进行节点泛化。 步骤2.1 寻找最相似的概念节点D’。 8 5.1 原理 步骤2.2 如果D’为主,则完成规则的形成过程,退出循环。 步骤2.3 以概念层次为依托,合并D和D’得到U。 步骤2.4 如果U的错误率大于预设的阈值,则退出循环;否则设置D=U。 步骤3 将上述泛化后的概念节点D加入规则集。 9 5.1 原理 10 5.1 原理 如果说 AutoSlog – TS 是一种“纯粹”的学习方法,而互激励法可认为是一种“边学习边实践”的方法。互激励法无须指出所有实例与目标领

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档