自然语言处理8 命名实体识别.docxVIP

下载本文档

5
0
约2.45千字
约 3页
2023-08-14 发布于江苏
举报

自然语言处理8 命名实体识别.docx

8. 命名实体识别 8.1 概述命名实体文本中有一些描述实体的词汇。比如人名、地名、组织机构名、股票基金、医学术语等，称为命名实体。具有以下共性: 数量无穷。比如宇宙中的恒星命名、新生儿的命名不断出现新组合。构词灵活。比如中国工商银行，既可以称为工商银行，也可以简称工行。类别模糊。有一些地名本身就是机构名，比如“国家博物馆” 命名实体识别识别出句子中命名实体的边界与类别的任务称为命名实体识别。由于上述难点，命名实体识别也是一个统计为主、规则为辅的任务。对于规则性较强的命名实体，比如网址、E-mail、IBSN、商品编号等，完全可以通过正则表达式处理，未匹配上的片段交给统计模型处理。命名实体识别也可以转化为一个序列标注问题。具体做法是将命名实体识别附着到{B,M,E,S}标签，比如，构成地名的单词标注为“B/ME/S- 地名”，以此类推。对于那些命名实体边界之外的单词，则统一标注为0 ( Outside )。具体实施时，HanLP做了一个简化，即所有非复合词的命名实体都标注为S，不再附着类别。这样标注集更精简，模型更小巧。命名实体识别实际上可以看作分词与词性标注任务的集成: 命名实体的边界可以通过{B,M,E,S}确定，其类别可以通过 B-nt 等附加类别的标签来确定。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

自然语言处理8 命名实体识别.docxVIP