- 3
- 0
- 约 24页
- 2017-04-10 发布于上海
- 举报
基于向量空間模型的中文微博实体链接
基于向量空间模型的中文微 博实体链接
吴泳钢 昝红英 范庆虎
郑州大学自然语言处理实验室
引言
评测任务
主要策略
评测指标
实验结果及分析
郑州大学自然语言处理实验室
引言
命名实体歧义指的是一个命名实体指称项可对应到多个命名实体概念,在自然语言中,一词多义现象普遍存在,要让计算机正确地分析和理解自然语言,一个重要的前提条件就是能够在该词出现的特定语境下,进行词义消歧。
郑州大学自然语言处理实验室
评测任务
给定一条微博,一个待链接的字符串,以及该字符串在这条微博中出现的位置,本任务要求首先判断该字符串是否指向了知识库中的某一个实体;若存在这样的对应实体,则将该实体在知识库中的标号输出,若不存在,则输出空置符NIL。
郑州大学自然语言处理实验室
主要策略
使用百度百科资源进行实体信息的特征抽取,建立待链接字符串所在上下文的向量空间模型,进行命名实体消歧,主要分为以下三步:
数据预处理
获取百度百科候选实体
命名实体消歧
郑州大学自然语言处理实验室
数据预处理(1/4)
本文采用的分词和标注工具是中科院分词,中文微博,语句短小,文本规则不强,因此要将待链接字符串预处理,经过对数据集观察发现,主要包括以下几种情况:
外来人名
命名实体分拆
符号的不当
郑州大学自然语言处理实验室
数据预处理(2/4)
外来人名
原创力文档

文档评论(0)