- 8
- 0
- 约6.44千字
- 约 37页
- 2016-12-23 发布于北京
- 举报
本体构建与学习小组 1. 本体进化 BM25是基于概率检索模型,它是按照文档与所给查询相关的概率而对文档进行排序的一个函数 所要回答的基本问题是:某个文档与某个查询相关的概率是多少? 应用BM25计算每个关键词和所在论文的分类号的相关程度 关键词作为候选概念的条件 至少与一个分类号的相关程度足够大 1.1 实验(1) 内容:将候选关键词按BM25值从大到小排序,考察被手工剔除的词 实验结果表明:与第一次进化(采用tf)的方法相比,手工剔除的词中有50%的排名在倒数1/3 排在前面的大部分是和某分类号有相关关系的,即手工剔除有误。 1.1 实验(2) 发现第一次进化时不够准确的对应关系 例如:导游人员 第一次进化:按频率计算,应与F592对应 采用BM25:应与F590.63对应 1.2 结果分析 绝大多数情况下,计算关键词的BM25公式值能准确反映出它和某分类的相关程度,从而在本体中找到该概念的位置。 这种方法相对于以前的进化方法,能更准确的发现新概念及其与本体中已有分类的对应关系,减少通用词等噪音,从而减少专家手工剔除时的工作量。 问题:对于一些通用概念,由于某些分类下的论文数很少,导致BM25值计算偏高的现象。 1.3 下一步工作的展望 利用已有的本体结构和文献资源,对相同分类下的主题词(术语)进行有监督的聚类,聚集相似术语,发现同义词关系和概念间的父子关系。 利用获
您可能关注的文档
- 从评估的思考看电大的教师队伍建设.ppt
- 他是一位杰出的美国总统;.ppt
- 以下是二氧化氯发生器的简单介绍,随着近年来LVQI泄漏导致.doc
- 企业发展经济所需要的技术革新模式.doc
- 企业物流与供应链管理高级研修班.doc
- 优秀教师免费导学公益活动团队教师名单(预排).doc
- 但是,也正因为这样,更是责任心的驱使,一定会认真做好.doc
- 信息工程系宣传部二〇一二年四月.ppt
- 信息技术在教学活动中的应用体验.doc
- 克拉玛依市中小学名师工作室申报表.doc
- 2025年下半年小学教师资格考试简答题汇总.pdf
- 护理教学比赛资源整合.pptx
- 2022泰和安消防 JTGB-HM-TX3H01 JTGB-HM-TX3H02 TGB-HM-TX3H03 系列点型红外火焰探测器.docx
- 2025年驾驶证资格考试最新最全交通标志大全.pdf
- 护理教学理念:更新与发展.pptx
- 2025年新驾考科目一巧记速记口诀(全国通用).pdf
- 2025年一级建造师《项目管理》黄金预测考点【打印版】.pdf
- 证券公司高级管理人员资质测试章节练习-第一部分综合类第六章至七章:证券投资基金法、信托法.pdf
- 护理教学研究:方法与成果.pptx
- 麻纺车间设备更新准则.docx
最近下载
- 一人公司发展研究报告2.0.docx
- 食堂食材配送肉类禽类水产品食品配送售后服务方案.docx VIP
- 2025年北京市房山区初三一模英语试卷和答案.pdf VIP
- 市场微观结构系列研究(一):从分钟频到Level2的探索与发现.pdf VIP
- 一种选择性降解粘蛋白的丝氨酸蛋白酶及其应用.pdf VIP
- 一人公司发展研究报告2.0-清新研究团队.pptx
- 《产品认证基础》_第2版 三色笔记(2).pdf VIP
- 足浴灭火和应急疏散预案.docx
- 毕业论文外文文献翻译GeneralRequirementsToConstructionOfSubstation变电站建设的一般要求.doc VIP
- 高频股东数据的隐含信息量.pdf VIP
原创力文档

文档评论(0)