何军老师、刘红岩老师武文娟、杨慧、魏巍、李直旭、胡泊、.pptVIP

  • 8
  • 0
  • 约6.44千字
  • 约 37页
  • 2016-12-23 发布于北京
  • 举报

何军老师、刘红岩老师武文娟、杨慧、魏巍、李直旭、胡泊、.ppt

本体构建与学习小组 1. 本体进化 BM25是基于概率检索模型,它是按照文档与所给查询相关的概率而对文档进行排序的一个函数 所要回答的基本问题是:某个文档与某个查询相关的概率是多少? 应用BM25计算每个关键词和所在论文的分类号的相关程度 关键词作为候选概念的条件 至少与一个分类号的相关程度足够大 1.1 实验(1) 内容:将候选关键词按BM25值从大到小排序,考察被手工剔除的词 实验结果表明:与第一次进化(采用tf)的方法相比,手工剔除的词中有50%的排名在倒数1/3 排在前面的大部分是和某分类号有相关关系的,即手工剔除有误。 1.1 实验(2) 发现第一次进化时不够准确的对应关系 例如:导游人员 第一次进化:按频率计算,应与F592对应 采用BM25:应与F590.63对应 1.2 结果分析 绝大多数情况下,计算关键词的BM25公式值能准确反映出它和某分类的相关程度,从而在本体中找到该概念的位置。 这种方法相对于以前的进化方法,能更准确的发现新概念及其与本体中已有分类的对应关系,减少通用词等噪音,从而减少专家手工剔除时的工作量。 问题:对于一些通用概念,由于某些分类下的论文数很少,导致BM25值计算偏高的现象。 1.3 下一步工作的展望 利用已有的本体结构和文献资源,对相同分类下的主题词(术语)进行有监督的聚类,聚集相似术语,发现同义词关系和概念间的父子关系。 利用获

文档评论(0)

1亿VIP精品文档

相关文档