- 10
- 0
- 约6.55千字
- 约 47页
- 2016-12-06 发布于重庆
- 举报
医用酶技术汇报v3
基于医用酶语义的文献数据检索挖掘算法的设计与实现 研究背景 ABC算法起源 本体概念提取模型的构建 本体概念提取模型的构建 概念提取运行结果 医用酶非分类关系抽取组合模型构建 关系提取运行结果 语义相关性计算 语义相似和语义相关有一定的区别:语义相似意味着相关词汇所表达的概念在某些特征方面有重合,而相关性表明概念之间有相似性,但概念所表达的一些特征不直接重合。因此,语义相似只是语义相关的一个特殊方面,例如,3-肌醇六磷酸酶和6-肌醇六磷酸酶在应用功能上相似,而不是紧密相关,3-肌醇六磷酸酶与水紧密相关但是不相似。 语义相关性计算 在本研究中对语义相关性的计算是如下定义的: 在检索过程中,对检索词按照本体库中得逻辑和规则进行了扩展,把其初始检索词目标Gi与扩展检索词结果Ei的语义相关度做为一个评价指标。 将本体元素之间存在的约束关系集合设定一个向量体系,表示为O = [F C S I R A ] 。其中: F表示概念名父类集合,C表示概念名类集合,S表示概念名子类集合,I表示概念名实例集合,R 表示概念之间的关系集合,A 表示描述概念的属性集合。对每一个向量取二值函数{0 1}.在各分量上取值,对于初始检索词目标Gi表现显著取1,不显著取0,设取值为1的向量个数为m ;对于扩展检索词结果Ei,表现显著取1,不显著取0,设计取1个向量个数为n;将检索目标与扩展检索结果在各分向量上的分布组成一个矩阵,扩展结果于检索目标相匹配的向量个数l( )依据以下相关度计算公式: 语义相关性计算 表示Ei与Gi相对应的属性越多,语义越匹配,两者的相关性越强。 例如:有如下初始检索词目标矩阵,经过扩展后的结果矩阵是,将其组合成矩阵为,该初始检索词目标与扩展检索词结果的相关度为 基于本体的全文检索算法 医用酶本体全文检索总体框架设计 全文检索算法设计 全文检索算法设计 1、用户查询输入分析 用户的查询往往是一组关键词,这些关键词有可能是本体库中的元素(类、实例、属性、属性值),也有可能是其他普通的关键词。所以必须首先对用户输入进行分析。这个分析过程也同样是使用的Analyzer组件。也就是说对于索引和检索使用相同的分析算法。这样能使检索匹配结果达到最优结果。 1) For each keyword in Query:扫描输入关键词 a) If is 本体元素,Then添加到本体标注堆栈h2 b) Else if is 其他关键词,Then 添加到普通堆栈h1 2) 先对h2建立SVM向量空间模型v2,并赋予较高权值w2 3) 然后h1建立SVM向量空间模型v1,并赋予较低权值w1 4) 整合v2和v1,建立用户输入向量空间模型v 全文检索算法设计 2、全文检索算法 全文检索算法的排序是根据信息检索的向量空间模型[26]来计算的。文档(d)和查询条件(q)之间越接近,那么文档(d)的得分就越高。计算公式如下: 1)表示的是查询条件中,每个(t:term)在本文档(d)中的出现频率。查询关键词出现的频率越高,文档的得分就越高。这个部分的默认计算公式是: 2)表示的是反转文档频率( Inverse Document Frequency).这个函数表示的是(t:term)在所有文档中一共在多少个文档中出现过。因为文档出现的次数越少就越容易定位,所以文档数越少,得分就越高。这个函数的默认计算公式如下: 3)这个函数表示的是在这个文档(d)中Term(t)出现的百分比,也就是文档中出现的不同Term数量和查询条件(q)中的不同Term(t)的数量之比。所以,文档中出现的Term种类越多,分值就高: 全文检索算法设计 4)这个函数是一个调节因子,不影响具体的排序情况。主要是用来让排序结果在不同的查询条件(或者不同的索引)之间可以比较。这个条件是在搜索的时候计算的。它的计算公式如下: The sum of squared weights (查询条件的terms)是由查询的权重对象计算的。不同的查询方式,有不同的计算方法。例如:Boolean query的计算公式如下: 5)这个函数得到的是一些建索引的时候得到的一些参数计算值:encapsulates a few (indexing time) boost and length factors: ? Document boost:文档的boost,是建索引的时候设置的文档得分。 ? Field boost:在将一个字段加入到文档中去的时候加入的字段得分。(不同的字段得分不同有利于排序,例如标题的得分应该比内容的得分要高等) ? lengthNorm(field) – 文档在建立索引的时候加入的一个参数,根据文档的某个字段含有的Term数量来
您可能关注的文档
- 北京地铁14号线防水交底及质量控制要点.ppt
- 北大2011秋_第14讲_市场管制与国家行为.ppt
- 化疗药物的安全输注QQ.ppt
- 北师大七年级数学(下)63温度的变化.ppt
- 北京航空航天大学《嵌入式系统》课件第1章绪论.ppt
- 北师大模块三Unit 9 On your Bike 教学课件.ppt
- 北师大版6章复习课变量之间关系.ppt
- 北师大版一年级数学上册第六单元练习题.ppt
- 北师大版七年级数学65统计图的选择.ppt
- 北师大最新版三上存零用钱课件.ppt
- 某镇领导班子2025年度民主生活会对照检查材料.docx
- 高级中学党政办公室主任2025年度述职述廉报告.docx
- 在镇“锤炼作风提效能,凝心聚力建新功”主题春训活动动员部署会上的讲话.docx
- 在2026年春季开学教职工会议上的讲话.docx
- 公司党支部2025年度组织生活会对照检查材料.docx
- 在树立和践行正确政绩观学习教育动员部署会议上的讲话.docx
- 专题党课:筑牢作风“防火墙” 展现司法新担当.docx
- 在树立和践行正确政绩观学习教育专题研讨会上的发言材料.docx
- 在公司2026年度党建暨党风廉政大会上的讲话.docx
- 在县委党的建设工作领导小组会议上关于开展树立和践行正确政绩观学习教育部署工作的讲话.docx
最近下载
- YYT 0471.2-2004 接触性创面敷料试验方法 第2部分 透气膜敷料水蒸气透过率.docx VIP
- XXX油库改扩建工程(建筑专业监理实施细则).doc VIP
- 机械制图三视图学习课件.ppt VIP
- 金融不良资产收购之尽职调查[官方2017年最新版].pdf VIP
- 4.3《小练习(3)》(教学课件)四年级 数学下册 沪教版.pptx VIP
- 贵州省2019年高职(专科)分类招生中职生文化综合考试数学试卷.docx VIP
- 设备验收单范本.doc VIP
- DB3707_T 101-2023 规模化鸭场坦布苏病毒病防控技术规程.docx VIP
- 《会计信息系统应用》教案 第2课 系统明白卡和系统管理.pdf VIP
- 2025公安部大数据中心招聘33人笔试参考题库附答案解析.docx VIP
原创力文档

文档评论(0)