基于维基百科的中文命名实体识别及消歧.pptVIP

  • 3
  • 0
  • 约2.34千字
  • 约 18页
  • 2017-06-18 发布于湖北
  • 举报

基于维基百科的中文命名实体识别及消歧.ppt

designed by - copyright 1999 基于维基百科的中文命名实体识别与消歧 于淼 2012.11.3 维基百科介绍(现场上网展示) 解释型页面 重定向页面 消除歧义页面 分类 信息框 维基百科介绍 中文页面:508,865篇条目 英文页面:4,021,627篇条目 支持282种语言,共突破2100万个条目 维基百科数据库的建立 JWPL开源工具包 11个表,包含了维基页面几乎所有的信息 数据库的访问 繁简转换 去除噪音 基于维基百科的命名实体识别 维基百科中页面的第一段是对条目的概括性描述 中国移动通信集团公司(简称“中国移动通信”或“中国移动”)是2000年4月20日成立的中国国有重要骨干企业 李宁(1963年3月10日-),壮族人,生于广西柳州,中国退役体操运动员,企业家 中国是位于亚洲东部的一个地理或国家区域,最早是泛指炎黄子孙在中原建立的国度[4],至现代国际体系成形后才开始作为国家的通称。 基于维基百科的命名实体识别 “是”后面的核心名词反应了条目的属性 机构、企业家、区域有利于我们判断一个条目是人名、地名还是机构名 抽取维基百科页面的定义特征作为一种额外的知识加入基于CRF的命名实体识别中 抽取维基百科定义特征 1.将维基百科页面的第一段用词法分析工具进行分词并做词性标注 2.抽取第一段第一句话中定义性动词

文档评论(0)

1亿VIP精品文档

相关文档