医用酶技术汇报v3.pptVIP

  • 10
  • 0
  • 约6.55千字
  • 约 47页
  • 2016-12-06 发布于重庆
  • 举报
医用酶技术汇报v3

基于医用酶语义的文献数据检索挖掘算法的 设计与实现 研究背景 ABC算法起源 本体概念提取模型的构建 本体概念提取模型的构建 概念提取运行结果 医用酶非分类关系抽取组合模型构建 关系提取运行结果 语义相关性计算 语义相似和语义相关有一定的区别:语义相似意味着相关词汇所表达的概念在某些特征方面有重合,而相关性表明概念之间有相似性,但概念所表达的一些特征不直接重合。因此,语义相似只是语义相关的一个特殊方面,例如,3-肌醇六磷酸酶和6-肌醇六磷酸酶在应用功能上相似,而不是紧密相关,3-肌醇六磷酸酶与水紧密相关但是不相似。 语义相关性计算 在本研究中对语义相关性的计算是如下定义的: 在检索过程中,对检索词按照本体库中得逻辑和规则进行了扩展,把其初始检索词目标Gi与扩展检索词结果Ei的语义相关度做为一个评价指标。 将本体元素之间存在的约束关系集合设定一个向量体系,表示为O = [F C S I R A ] 。其中: F表示概念名父类集合,C表示概念名类集合,S表示概念名子类集合,I表示概念名实例集合,R 表示概念之间的关系集合,A 表示描述概念的属性集合。对每一个向量取二值函数{0 1}.在各分量上取值,对于初始检索词目标Gi表现显著取1,不显著取0,设取值为1的向量个数为m ;对于扩展检索词结果Ei,表现显著取1,不显著取0,设计取1个向量个数为n;将检索目标与扩展检索结果在各分向量上的分布组成一个矩阵,扩展结果于检索目标相匹配的向量个数l( )依据以下相关度计算公式: 语义相关性计算 表示Ei与Gi相对应的属性越多,语义越匹配,两者的相关性越强。 例如:有如下初始检索词目标矩阵,经过扩展后的结果矩阵是,将其组合成矩阵为,该初始检索词目标与扩展检索词结果的相关度为 基于本体的全文检索算法 医用酶本体全文检索总体框架设计 全文检索算法设计 全文检索算法设计 1、用户查询输入分析 用户的查询往往是一组关键词,这些关键词有可能是本体库中的元素(类、实例、属性、属性值),也有可能是其他普通的关键词。所以必须首先对用户输入进行分析。这个分析过程也同样是使用的Analyzer组件。也就是说对于索引和检索使用相同的分析算法。这样能使检索匹配结果达到最优结果。 1) For each keyword in Query:扫描输入关键词 a) If is 本体元素,Then添加到本体标注堆栈h2 b) Else if is 其他关键词,Then 添加到普通堆栈h1 2) 先对h2建立SVM向量空间模型v2,并赋予较高权值w2 3) 然后h1建立SVM向量空间模型v1,并赋予较低权值w1 4) 整合v2和v1,建立用户输入向量空间模型v 全文检索算法设计 2、全文检索算法 全文检索算法的排序是根据信息检索的向量空间模型[26]来计算的。文档(d)和查询条件(q)之间越接近,那么文档(d)的得分就越高。计算公式如下: 1)表示的是查询条件中,每个(t:term)在本文档(d)中的出现频率。查询关键词出现的频率越高,文档的得分就越高。这个部分的默认计算公式是: 2)表示的是反转文档频率( Inverse Document Frequency).这个函数表示的是(t:term)在所有文档中一共在多少个文档中出现过。因为文档出现的次数越少就越容易定位,所以文档数越少,得分就越高。这个函数的默认计算公式如下: 3)这个函数表示的是在这个文档(d)中Term(t)出现的百分比,也就是文档中出现的不同Term数量和查询条件(q)中的不同Term(t)的数量之比。所以,文档中出现的Term种类越多,分值就高: 全文检索算法设计 4)这个函数是一个调节因子,不影响具体的排序情况。主要是用来让排序结果在不同的查询条件(或者不同的索引)之间可以比较。这个条件是在搜索的时候计算的。它的计算公式如下: The sum of squared weights (查询条件的terms)是由查询的权重对象计算的。不同的查询方式,有不同的计算方法。例如:Boolean query的计算公式如下: 5)这个函数得到的是一些建索引的时候得到的一些参数计算值:encapsulates a few (indexing time) boost and length factors: ? Document boost:文档的boost,是建索引的时候设置的文档得分。 ? Field boost:在将一个字段加入到文档中去的时候加入的字段得分。(不同的字段得分不同有利于排序,例如标题的得分应该比内容的得分要高等) ? lengthNorm(field) – 文档在建立索引的时候加入的一个参数,根据文档的某个字段含有的Term数量来

文档评论(0)

1亿VIP精品文档

相关文档