基于最小语言学资源的资源受限领域命名实体识别-中文自然语言处理.pdfVIP

下载本文档

7
0
约2.23万字
约 8页
2017-11-24 发布于天津
举报

基于最小语言学资源的资源受限领域命名实体识别-中文自然语言处理.pdf

基于最小语言学资源的资源受限领域命名实体识别-中文自然语言处理

基于最小语言学资源的资源受限领域命名实体识别涂兆鹏姜文斌刘群林守勋廖剑吴克文智能信息重点实验室 B2B 国际站算法组计算技术研究所，中国科学院阿里巴巴（中国）网络技术有限公司 {tuzhaopeng,jiangwenbin, liuqun, sxlin}@ {jian.liaoj, kewen.wukw}@ 提高最终的翻译性能(Jiang et al., 2007; Zhao et 摘要 al., 2008; Yang et al., 2008) 。如何在资源匮乏的大规模数据（如互联如何识别存在大规模生语料、资源匮乏领网纯文本数据）上识别命名实体是一个域的命名实体，也引起了广大研究者的兴趣。重要的问题。为解决该问题，我们使用如果人工标注大规模的数据，将是一个极其消简单的词典资源自动标注数据，然后将耗人力和物力的工作，很不现实。传统的做法命名识别问题转化为基于最大熵马尔可是使用人工维护的词典或者使用规则方法识别夫模型的序列标注问题。我们使用两种网络数据中的命名实体。但是，互联网数据中方法搜索结果：1）输出标注序列，并使的命名实体具体如下特点：用重排序方法对 k-best 结果进行重排 1. 新出现的命名实体多。在互联网中，由于序；2 ）使用变种的前向-后向算法计算新名词层出不穷，所以出现了很多与之相出候选命名实体的概率，并使用阈值过关的新的命名实体。使用词典方法无法识滤。实验表明，使用后种方法可以极大别这些新词，而且人工维护词典也需要很地提高命名实体识别的召回率和 F 值，高的人力成本。并可以更加灵活地根据需求控制准确率与召回率。 2. 形式灵活多变。命名实体识别任务的困难之处在于歧义问题，即一个单词可能出现在命名实体的不同位置。比如电商领域 1 引言中，单词 screen 可以出现在命名实体的不命名实体，是指人名、机构名、产品名以同位置：及其他所有以名称为标识的实体。当前主流的 (a) screen guard mirror for iphone4S 命名实体识别方法都是使用有监督的机器学习 (b) large touch screen panel 方法，依赖人工标注好的训练语料。随着互联 (c) high quality led advertising screen 网的发展，涌现了越来越多的网页数据。识别

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于最小语言学资源的资源受限领域命名实体识别-中文自然语言处理.pdfVIP