《统计自然语言处理与信息检索》信息检索3-模型.pptVIP

《统计自然语言处理与信息检索》信息检索3-模型.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
K=2 Some clustering Can be found, Such as: {differential, equation} {implementation,application,algorithm} {B4,B8,B9,B10,B13,B14, B15} * * 向量空间模型小结 向量模型的优点在于: 索引项权重的算法提高了检索的性能 部分匹配的策略使得检索的结果文档集更接近用户的检索需求 可以根据结果文档对于查询串的相关度通过Cosine Ranking等公式对结果文档进行排序 思考? 判断两段程序之间是否存在抄袭? 一个可能的思路 比如对每段程序建立一个函数个数,变量个数,常量个数,…向量,然后进行向量相似度计算。如果相似度大于某个阈值,则认为可能抄袭 概率检索模型 Robertson和Spark Jones在1976年提出 基本思想: 用户提出了查询,就有一个由相关文档构成的集合,该集合只包括与查询完全相关的文档而不包括其他不相关的文档,称该集合为理想结果集合,记为R。如果知道R的特征,就可以找到所有的相关文档,排除所有的无关文档。因此,可以把查询看成一个寻找R的特征的过程。 在第一次查询时并不知道R的特征,只能去估计R的特征来进行查询。第一次查询完成后,可以让用户判断一下检索到的文档哪些是相关文档,根据用户的判断,可以更精确地估计R的特征。然后系统利用该信息重新定义理想结果集合的概率描述;重复以上操作,就会越来越接近真正的结果文档集。 估计R的特征 进行检索 用户判断 相关概念 贝叶斯定理: 词条的独立假设:P(AB)= P(A) P(B) 当且仅当 A 与 B 相互独立. 若文档中的各个索引词相互独立,则有 P(d)=P(x1)…P(xn) 二元独立检索模型(BIR) 含义 假设索引项的权重都是二值的 假设索引项之间相互独立 文档和查询都可以使用二元向量(wij)来表示 对于文档d, wij=1表示该文档可以用索引项i来描述 对于查询q, wiq=1表示查询可以用索引项i来描述 BIR 设x表示文档向量, R表示与查询q相关的文档集,NR表示与查询q不相关的文档集 在给定一条查询q的情况下,计算一篇文档属于相关集合R的概率 p(R|d)=p(R|x) 查询q和文档d相似度的定义: 假设不在查询中出现的关键词,在相关和不相关文档中出现的概率相同,即当qi=0时,pi=ri Retrieval Status Value(RSV) Ci称为Spark-Jones权重 初始估计: ni为包含索引词xi的文档数;N为集合中的文档总数。 初始值确定后,根据与查询Q相关的大小进行初步排序,取前若干个文档作为相关查询集合。之后通过如下方法进行改进。 迭代学习: 用V表示概率模型初步检出并经过排序的文档子集, Vi表示V中包含索引词xi 的文档集合。 根据V和Vi中包含索引词xi的文档数目来改进初始值,通过如下假设完成: 根据已检索出的文档中索引词xi的分布来估计pi 根据未检索出的文档都是不相关的来估计ri 这样就形成了一个检索和学习的迭代过程,也就是概率检索模型。 对较小的V和Vi,如V=1,Vi=0,上述计算会出现问题,所以做以下改进: 也可以为: 平滑 概率模型小结 该方法的优点 采用了概率排序原则,理论上更为严密,符合检索过程的抽象。 若索引词之间相互独立的,这种方法可以得到优化的查询结果(排序)。 该方法的缺点 不考虑索引词在文档中出现的频率,所有权值都是二元的。 索引词之间相互独立的假设;不在查询中的索引词不影响文档相关性的假设 * 总结 信息检索模型是信息检索的核心 主要问题包括:文档的表示、查询的表示、匹配的度量 三种模型的优缺点比较 新的检索模型? 潜在语义索引模型 潜在语义索引=Latent Semantic Indexing,LSI 问题引出 自然语言文本中的词汇(术语)具有一词多义(polysemy)和一义多词(synonymy)的特点. 由于一词多义, 基于精确匹配的检索算法会返回许多用户不需要的东西; 处理 什么地方处理旧家具? 你去把那个叛徒处理了 处理自然语言很难 由于一义多词, 基于精确匹配的检索算法又会遗漏许多用户想要的东西. “互联网”,“万维网”,“因特网”,“国际互联网”等 精确匹配的问题 设Doc1, Doc2, Doc3是三个文件. 一些术语在这三个文件中的出现情况如下表: 假定用“information”和 “computer”作为主题词进行检索, 那么Doc2和Doc3与之精确匹配,因而中选。 然而, Doc2是用户

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档