信息检索和发展.pptVIP

  • 2
  • 0
  • 约8.43千字
  • 约 58页
  • 2019-08-29 发布于广东
  • 举报
布尔模型 基于集合论和布尔代数,适用于普通用户,核心是二值相关,不能进行相关性排序 向量空间模型 以向量表示提问和文档,向量计算在后台进行,与用户无关,优点是可以进行相关性排序,也可产生文档文摘 概率模型 基于贝叶斯概率论,更具有普遍性,适应多媒体、语义文档的检索,具有逻辑推理能力 以上模型在实践中,常常混合使用,以达到最佳效果 * 布尔模型——集合的运算 并运算 设A,B是两个集合,集合A与B的并运算是由A的一切元素和B的一切元素所组成的集合,记做 A∪B,数学表示为: 设 A={a,b,c,d,e},B={c,d,x,y,z} 则 A∪B={a,b,c,d,e,x,y,z} 即 A∪B={x|x∈A∨x∈B } A B 空间E * 布尔模型——集合的运算 交运算 设A,B是两个集合,包含A和B的所有公共元素的集合叫做A与B的交集,记做 A∩B,数学表示为: 设 A={a,b,c,d,e},B={c,d,x,y,z} 则 A∩B={c,d} 即 A∩B={x|x∈A∧x∈B } * 布尔模型 遵循两条基本规则 每个索引词在一篇文档中只有两种状态:出现或不出现,对应逻辑值为 0 或 1 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式 * 布尔模型——集合的运算 差运算 设A,B是两个集合,A-B是由一切属于A但不属于B的元素所组成的集合,称为B在A中的余集,或者A与B的差,即 设 A={a,b,c,d,e}, B={c,d,x,y,z} 则 A-B={a,b,e}, B-A={x,y,z} 数学表示为 A-B={x|x∈A﹁x∈B } * 布尔模型 定义 用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分项,文献dj 与查询q的相似度为 如果 ,则表示文献dj与q相关,否则为不相关。 sim(dj, q) 为该模型的匹配函数(相似度) * 布尔模型——优缺点 优点 简单而整齐 自我保护功能,降低用户对搜索系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好 简单、易理解、简洁的形式化 缺点 它的检索策略是基于二值决策准则,即一个文档只被判断成相关的或不相关的,无任何等级变化 当用布尔表达式表示精确语义的时候,很难将信息表达为一个布尔表达式 准确匹配,信息需求的能力表达不足 布尔模型 目前仍然是商业文档数据库的主流模型,并为一些新的领域提供了一个好的起点 * 2、向量模型——n维向量 考虑从空间坐标系原点出发(其他向量可以平移到原点出发)的向量 ,其终点坐标为x1,x2,…,xn,我们称之为一个n维向量 * 2、向量模型——n维向量 向量的运算 加、减、倍数、内积 * 向量模型——空间概念 文献空间 如果把每个标引词看作是一个向量,代表了空间的一个维,则由这些标引词集合定义了一个空间 文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就成为“文献空间” * 向量模型——空间概念 标引词空间 文献集合中的一篇文献可看成是标引词空间的一个维,空间中的一点代表一个标引词点 从原点到该点的向量就是一个标引词向量 它在各个轴上的分量就是该标引词在各个轴所代表的相应文献中的权重 * 向量模型——模型含义 向量空间模型(Vector Space Model, VSM) 由康奈尔大学Salton等人在上世纪70年代末提出并倡导的,原型系统为SMART* 该模型采用了“部分匹配”的检索策略,即:出现部分索引词也可以出现在检索结果中,以克服布尔模型的缺点 * 可从/pub/smart/下载全部源码和相关语料 * 向量模型——模型含义 向量空间模型(Vector Space Model, VSM) ?通过给查询或文档中的索引词分配非二值权值来实现 查询和文档都可转化成Term及其权重组成的向量表示,并可以看成空间中的点。向量之间通过距离计算得到查询和每个文档的相似度 * 可从/pub/smart/下载全部源码和相关语料 * 向量模型——模型含义 向量模型通过分派非二值权重给查询和文档中的索引项来实现检索目标 这些权重用于计算系统中的每个文档与用户的查询请求的相似程度,向量模型通过对文档按照相似程度降序排列的方式,来实现文档与查询项的部分匹配 结果中的文档排列顺序比通过布尔模型得到的结果要合理得多 * 向量模型——模型含义 在该模型中,与(ki,dj)相关联的权重wi,j是一个非二值数 查询中的索引项也是有权重的,设wi,q是与(ki,q)相关联的权重,

文档评论(0)

1亿VIP精品文档

相关文档