基于最小语言学资源的资源受限领域命名实体识别-中文自然语言处理.pdfVIP

  • 7
  • 0
  • 约2.23万字
  • 约 8页
  • 2017-11-24 发布于天津
  • 举报

基于最小语言学资源的资源受限领域命名实体识别-中文自然语言处理.pdf

基于最小语言学资源的资源受限领域命名实体识别-中文自然语言处理

基于最小语言学资源的资源受限领域命名实体识别 涂兆鹏 姜文斌 刘群 林守勋 廖剑 吴克文 智能信息重点实验室 B2B 国际站算法组 计算技术研究所,中国科学院 阿里巴巴(中国)网络技术有限公司 {tuzhaopeng,jiangwenbin, liuqun, sxlin}@ {jian.liaoj, kewen.wukw}@ 提高最终的翻译性能(Jiang et al., 2007; Zhao et 摘要 al., 2008; Yang et al., 2008) 。 如何在资源匮乏的大规模数据(如互联 如何识别存在大规模生语料、资源匮乏领 网纯文本数据)上识别命名实体是一个 域的命名实体,也引起了广大研究者的兴趣。 重要的问题。为解决该问题,我们使用 如果人工标注大规模的数据,将是一个极其消 简单的词典资源自动标注数据,然后将 耗人力和物力的工作,很不现实。传统的做法 命名识别问题转化为基于最大熵马尔可 是使用人工维护的词典或者使用规则方法识别 夫模型的序列标注问题。我们使用两种 网络数据中的命名实体。但是,互联网数据中 方法搜索结果:1)输出标注序列,并使 的命名实体具体如下特点: 用重排序方法对 k-best 结果进行重排 1. 新出现的命名实体多。在互联网中,由于 序;2 )使用变种的前向-后向算法计算 新名词层出不穷,所以出现了很多与之相 出候选命名实体的概率,并使用阈值过 关的新的命名实体。使用词典方法无法识 滤。实验表明,使用后种方法可以极大 别这些新词,而且人工维护词典也需要很 地提高命名实体识别的召回率和 F 值, 高的人力成本。 并可以更加灵活地根据需求控制准确率 与召回率。 2. 形式灵活多变。命名实体识别任务的困难 之处在于歧义问题,即一个单词可能出现 在命名实体的不同位置。比如电商领域 1 引言 中,单词 screen 可以出现在命名实体的不 命名实体,是指人名、机构名、产品名以 同位置: 及其他所有以名称为标识的实体。当前主流的 (a) screen guard mirror for iphone4S 命名实体识别方法都是使用有监督的机器学习 (b) large touch screen panel 方法,依赖人工标注好的训练语料。随着互联 (c) high quality led advertising screen 网的发展,涌现了越来越多的网页数据。识别

文档评论(0)

1亿VIP精品文档

相关文档