- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 基于规则的信息抽取
5.1 原理
5.2 规则的建立
5.3 规则抽取系统
5.4 自由文本规则抽取系统讨论
5.5 规则抽取系统比较
5.6 规则抽取的困难
1
5.1 原理
基于规则的信息抽取分为信息抽取规则的学习(关键)和应用规则获取目标信息两个阶段。
信息抽取规则主要用于指明构成目标信息的上下文约束环境,如 CIRCUS 系统的抽取规则为概念节点,每个概念节点主要由触发词、激活条件(指定必须满足的语言模式)、硬性约束(强制性的语义约束)、软性约束(语义限制,可以违背)和目标信息位置这几项构成。
概念节点成为后面的 AutoSlog、CRYSTAL、AutoSlog-TS 等系统的通用性规则。
2
5.1 原理
由于规则较为集中地体现了领域知识和语言知识的融合,所以其构建过程即为知识的获取过程。根据手工参与程度的不同,规则的构建可分为三种类型:知识的手工编制、知识的半自动获取和知识的自动获取。
3
5.1 原理
1. 知识的手工编制
早期的信息抽取系统大多依赖于手工编制。如在MUC-3上使用的 CIRCUS 系统,所使用的三个知识库(即词典、案例框架和篇章分析规则库)都是用手工进行编制的。
手工编制:具有专门知识的人员、费时、容易出错、产生疏漏、代价较高、难以达到很高的语言覆盖面、可移植性差。
4
5.1 原理
2.知识的半自动获取
AutoSlog 系统需要用手工标注训练数据,并设置启发式搜索规则以获取锚点;
PALKA 需要手工定义的框架、语义层次和相关的词典;
CRYSTAL 除了要有手工标注数据,还要有语义层次和相关的词典;
LIEP 则使用预先定义的关键词和对象识别器,依赖于用户的交互,给相关的语句分配事件类型。
共同点:依赖手工标注过的数据或通过与用户的交互过程,利用加工过的语料,学习语言的模式规则,是一种较为典型的机器辅助式知识获取。
5
5.1 原理
规则的学习主要有两种方式:一是由概括性规则开始,通过实例的学习获取规则,是从一般到特殊的过程,如 AutoSlog ,是一种自顶而下的学习法。二是由具体性的规则开始,通过合并获取得到具有覆盖能力的规则,是从特殊到一般的过程,如 CRYSTAL ,是一种从底向上的学习法。介于两者之间的,如 PALKA ,则既有从特殊到一般的泛化过程,又有从一般到特殊的具体化过程。
这里介绍自顶而下和从底向上两种典型的规则学习方法。
6
5.1 原理
(1)自顶而下的学习法, AutoSlog 利用通用的13条语言模式作为启发性的规则,由用户标注的例子发现语言模式的具体约束,实现通用规则的具体化。
自顶向下的学习过程如下:
步骤1 寻找到含有目标信息的语句,此语句一般由手工进行标记过。
步骤2 对此语句进行部分分析,识别出主语、动词词组、直接宾语和介词短语等。
步骤3 依次应用概括性的语言模式,得到该目标信息所对应的语言模式。
步骤4 如果存在适用的语言模式,则从目标信息上下文中产生相应的概念节点。
7
5.1 原理
(2)从底向上的学习法, CRYSTAL 利用覆盖算法实现从具体实例到获取通用的规则模式。 CRYSTAL 认为实例中所有的语法和语义都是对所抽取信息的一种约束,通过放松高度具体的约束,达到覆盖更多正面实例(含有要抽取信息的语句)、简化规则的目的。这种算法一般有较强的泛化能力,可扩充对未知文本的识别范围,学习过程归纳如下:
步骤1 从每个正面实例得到一个高度具体的概念节点的定义。
步骤2 对于每一个没有被规则所覆盖的概念节点 D 进行节点泛化。
步骤2.1 寻找最相似的概念节点D’。
8
5.1 原理
步骤2.2 如果D’为主,则完成规则的形成过程,退出循环。
步骤2.3 以概念层次为依托,合并D和D’得到U。
步骤2.4 如果U的错误率大于预设的阈值,则退出循环;否则设置D=U。
步骤3 将上述泛化后的概念节点D加入规则集。
9
5.1 原理
10
5.1 原理
如果说 AutoSlog – TS 是一种“纯粹”的学习方法,而互激励法可认为是一种“边学习边实践”的方法。互激励法无须指出所有实例与目标领
您可能关注的文档
- 使用R语言处理分析淘宝数据详解.docx
- 任务一变压器详解.ppt
- 烤箱美食食谱大全讲述.doc
- 使用VC6编写一个计算器MFC详解.docx
- 任务一配置电力变压器保护详解.doc
- 跨境考试知识整合解读.docx
- 跨文化交际-visiting解读.ppt
- 蓝桥杯软件类-评分与失误解读解读.ppt
- 蓝桥杯算法训练习题与官方答案解读.docx
- 企业信息化建设项目任务书详解.doc
- 2025-2026学年中职英语基础模块上册语文版教学设计合集.docx
- 基于知识图谱的职业教育个性化学习路径设计.docx
- 五级养老护理员基础知识强化专练题库300题(带答案).docx
- 教科版高中物理必修第一册 第四章 牛顿运动定律2探究加速度与力、质量的关系 课件.pptx
- 2025年廊坊市安次区某国企招聘笔试备考试题及参考答案详解.docx
- 2025年西畴县西洒中心卫生院医保政策DIP培训考试试题及答案.docx
- 2025-2026学年中职英语上册医护英语教学设计合集.docx
- 2025年廊坊市安次区某国企招聘笔试备考试题及参考答案详解1套.docx
- 2025年西方国家的经济复苏与政策响应试题及答案.docx
- 基于智能化平台的物理课后辅导与复习体系.docx
最近下载
- 施工重大危险源辨识与防控措施月报表.pdf VIP
- 人教版(部编版)小学语文五年级上册 圆明园的毁灭第二课时 名师教学PPT课件.pptx VIP
- 一体机-柯尼卡美能达-bizhubC220说明书.pdf VIP
- BS EN 60079-32-2-2015 国外国际规范.pdf VIP
- 急诊科患者转运途中突然病情变化应急预案.pptx VIP
- G30连云港至霍尔果斯高速景家口至清水驿段扩容改造报告书.pdf VIP
- 股骨粗隆间骨折护理查房——护理问题及措施与健康指导.ppt VIP
- 零星工程 投标方案(技术方案).docx
- 一种比色法检测金黄色葡萄球菌活菌的Cu-MOF材料及其制备方法和应用.pdf VIP
- 中国农业银行超柜业务及账户管理相关知识考试试卷.docx VIP
文档评论(0)