- 7
- 0
- 约2.23万字
- 约 8页
- 2017-11-24 发布于天津
- 举报
基于最小语言学资源的资源受限领域命名实体识别-中文自然语言处理
基于最小语言学资源的资源受限领域命名实体识别
涂兆鹏 姜文斌 刘群 林守勋 廖剑 吴克文
智能信息重点实验室 B2B 国际站算法组
计算技术研究所,中国科学院 阿里巴巴(中国)网络技术有限公司
{tuzhaopeng,jiangwenbin, liuqun, sxlin}@ {jian.liaoj, kewen.wukw}@
提高最终的翻译性能(Jiang et al., 2007; Zhao et
摘要
al., 2008; Yang et al., 2008) 。
如何在资源匮乏的大规模数据(如互联 如何识别存在大规模生语料、资源匮乏领
网纯文本数据)上识别命名实体是一个 域的命名实体,也引起了广大研究者的兴趣。
重要的问题。为解决该问题,我们使用 如果人工标注大规模的数据,将是一个极其消
简单的词典资源自动标注数据,然后将 耗人力和物力的工作,很不现实。传统的做法
命名识别问题转化为基于最大熵马尔可 是使用人工维护的词典或者使用规则方法识别
夫模型的序列标注问题。我们使用两种 网络数据中的命名实体。但是,互联网数据中
方法搜索结果:1)输出标注序列,并使 的命名实体具体如下特点:
用重排序方法对 k-best 结果进行重排
1. 新出现的命名实体多。在互联网中,由于
序;2 )使用变种的前向-后向算法计算
新名词层出不穷,所以出现了很多与之相
出候选命名实体的概率,并使用阈值过
关的新的命名实体。使用词典方法无法识
滤。实验表明,使用后种方法可以极大
别这些新词,而且人工维护词典也需要很
地提高命名实体识别的召回率和 F 值,
高的人力成本。
并可以更加灵活地根据需求控制准确率
与召回率。 2. 形式灵活多变。命名实体识别任务的困难
之处在于歧义问题,即一个单词可能出现
在命名实体的不同位置。比如电商领域
1 引言
中,单词 screen 可以出现在命名实体的不
命名实体,是指人名、机构名、产品名以 同位置:
及其他所有以名称为标识的实体。当前主流的
(a) screen guard mirror for iphone4S
命名实体识别方法都是使用有监督的机器学习
(b) large touch screen panel
方法,依赖人工标注好的训练语料。随着互联 (c) high quality led advertising screen
网的发展,涌现了越来越多的网页数据。识别
您可能关注的文档
最近下载
- 核医学教学课件:血液和淋巴显像.ppt VIP
- 重庆市各地方周氏支族源流(1-170支族).doc VIP
- 建筑工程质量管理体系流程图.docx
- 淋巴系统核医学检查课件.ppt VIP
- (高清版)B-T 6003.1-2022 试验筛 技术要求和检验 第1部分:金属丝编织网试验筛.pdf VIP
- (已压缩)TUCST007-2020房屋建筑与市政基础设施工程施工安全风险评估技术标准.docx VIP
- 2026年国家公务员考试申论真题及参考答案(考生回忆版).docx VIP
- 部编版语文二年级上册期中常考七大重点题型专项训练.docx VIP
- 机器人操作系统(ROS)及仿真应用 课件全套 第1--9章 Linux Ubuntu入门基础--- 基于ROS的服务机器人应用实例.ppt
- 压疮的预防及护理技术操作考核评分标准编辑.docx VIP
原创力文档

文档评论(0)