命名实体识别调研报告.PDFVIP

  • 251
  • 0
  • 约2.38万字
  • 约 21页
  • 2018-12-06 发布于天津
  • 举报
命名实体识别调研报告.PDF

命名实体识别调研报告 zekiye zekiye@ October3,2018 1 引言 命名实体识别(Named Entity Recognition,NER)为自然语言处理(NLP) 的基础任务之一,其目标是提取文本中的命名实体并对这些实体进行分类,比 如人名、地名、机构、时间、货币和百分比等,广泛用于信息提取、问答系统、 句法分析、信息检索和情感分析等任务。 命名实体识别不仅需要找出实体的位置,还需要对实体进行分类。数据的标 图1: NER 的任务:找+ 分类 注体系有:IO、BIO、BMEWO 和BMEWO+ 等。其中常用的是BIO 和BMEWO, 以BIO 为例: • B : Beginning of NE(B-)tag • I : Insideof NE (I-)tag • O :Outside of NE(O-)tag 训练数据的输入有两种形式,第一种是标注结果直接给在词的后面(词 1/tag1 词2/tag2),第二种是将语料和标注结果分开,放在两个不同的文件中。值得注 意的是,BIO 给出的是整体上的标注,是否是实体,还需要给出实体的具体类 别,所以标注的tag 实际中为“B-ORG B-LOCB-TIMEI-TIME”的形式。 整体上,近年来NER 研究的大体趋势如图2。早期方法主要基于规则和 词典构建NER 系统,比如Sheffield 大学的LaSIEII[Humphreys et al., 1998] 和 ISOQuest 的NetOwl[Krupka and Hausman, 1998]。到2000 年初,CRF 等概率图 模型得到广泛的应用。再之后,随着深度学习的兴起,Bi-LSTM+CRF 一度成 1 图2: NER 发展趋势 为研究的热点,直到近年来很多方法都是在Bi-LSTM-CRF 上的修改。LSTM 和 CRF 都需要合并序列中上下文的信息,注意力机制(Attention)自适应地计算 不同上下文对象的权重,因此成为一个很有用的技巧。深度学习方法一般需要 较大的数据量才能学好,但是实际生产中,往往出现数据集缺失和少量标注的 情况,迁移学习和半监督在一定程度上能解决这些问题。 根据图2,总结出本文将描述的内容: 1. 基于规则和词典 • 基本流程 • 词典与规则的构建 • 规则的自动生成与维护 2. 特征工程 3. 基于机器学习方法 • 无监督: 自动生成规则和关键词,学习模式 • 有监督:CRF 和Bi-LSTM-CRF 为代表,需要大量标注语料 • 半监督:预训练+Bi-LSTM-CRF+ 特征融合 2 基于规则和词典 采用机器学习方法做NER 是近年来的热点,但是前提是需要有足够大的标 注训练语料。在缺乏标注语料的时候,采用基本规则和词典不失为一种替代方 法,而且基于规则的方法也能达到不错的性能。所以一般在生产环境中,能靠 词典解决的问题就靠词典解决,这是最高效稳定的方法。其优点是,快速、可 解释性强和不需要太多标注语料。其缺点也很明显,需要领域知识、规则和词 典的构建与维护繁重、对未登陆词的匹配问题(召回会不够)。 首先给出一种实战中极简暴力的基于规则和词典的命名实体识别流程: 1. 构建词典:提取训练集中的所有命名实体,分词,取最后一个词(特证 词),存入词典,去重 2. 标注序列 2 (a) 分词并得到POS tag (b) 如果这个词的词性为特定名词,则标为S(start) (c) 如果这个词在步骤1 中的特证词词典中,则标为E(end) (d) 其他标为O(outside) 3. 识别实体: 采用规则正则匹配 对于第三步识别实体,举一个例子,机构名的一般构成为:若干地名+ 若干其 他成分+

文档评论(0)

1亿VIP精品文档

相关文档