《统计自然语言处理与信息检索》信息检索3-模型.pptVIP

下载本文档

9
0
约5.68千字
约 64页
2017-01-07 发布于浙江
举报
版权申诉

《统计自然语言处理与信息检索》信息检索3-模型.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

K=2 Some clustering Can be found, Such as: {differential， equation} {implementation，application，algorithm} {B4,B8,B9,B10,B13,B14, B15} * * 向量空间模型小结向量模型的优点在于：索引项权重的算法提高了检索的性能部分匹配的策略使得检索的结果文档集更接近用户的检索需求可以根据结果文档对于查询串的相关度通过Cosine Ranking等公式对结果文档进行排序思考？判断两段程序之间是否存在抄袭？一个可能的思路比如对每段程序建立一个函数个数，变量个数，常量个数，…向量，然后进行向量相似度计算。如果相似度大于某个阈值，则认为可能抄袭概率检索模型 Robertson和Spark Jones在1976年提出基本思想：用户提出了查询，就有一个由相关文档构成的集合，该集合只包括与查询完全相关的文档而不包括其他不相关的文档，称该集合为理想结果集合，记为R。如果知道R的特征，就可以找到所有的相关文档，排除所有的无关文档。因此，可以把查询看成一个寻找R的特征的过程。在第一次查询时并不知道R的特征，只能去估计R的特征来进行查询。第一次查询完成后，可以让用户判断一下检索到的文档哪些是相关文档，根据用户的判断，可以更精确地估计R的特征。然后系统利用该信息重新定义理想结果集合的概率描述；重复以上操作，就会越来越接近真正的结果文档集。估计R的特征进行检索用户判断相关概念贝叶斯定理：词条的独立假设：P(AB)= P(A) P(B) 当且仅当 A 与 B 相互独立. 若文档中的各个索引词相互独立，则有 P(d)=P(x1)…P(xn) 二元独立检索模型（BIR）含义假设索引项的权重都是二值的假设索引项之间相互独立文档和查询都可以使用二元向量（wij）来表示对于文档d， wij=1表示该文档可以用索引项i来描述对于查询q， wiq=1表示查询可以用索引项i来描述 BIR 设x表示文档向量， R表示与查询q相关的文档集，NR表示与查询q不相关的文档集在给定一条查询q的情况下，计算一篇文档属于相关集合R的概率 p(R|d)=p(R|x) 查询q和文档d相似度的定义：假设不在查询中出现的关键词，在相关和不相关文档中出现的概率相同，即当qi=0时，pi=ri Retrieval Status Value（RSV） Ci称为Spark-Jones权重初始估计： ni为包含索引词xi的文档数；N为集合中的文档总数。初始值确定后，根据与查询Q相关的大小进行初步排序，取前若干个文档作为相关查询集合。之后通过如下方法进行改进。迭代学习：用V表示概率模型初步检出并经过排序的文档子集, Vi表示V中包含索引词xi 的文档集合。根据V和Vi中包含索引词xi的文档数目来改进初始值，通过如下假设完成：根据已检索出的文档中索引词xi的分布来估计pi 根据未检索出的文档都是不相关的来估计ri 这样就形成了一个检索和学习的迭代过程，也就是概率检索模型。对较小的V和Vi，如V=1，Vi=0，上述计算会出现问题，所以做以下改进：也可以为：平滑概率模型小结该方法的优点采用了概率排序原则，理论上更为严密，符合检索过程的抽象。若索引词之间相互独立的，这种方法可以得到优化的查询结果（排序）。该方法的缺点不考虑索引词在文档中出现的频率，所有权值都是二元的。索引词之间相互独立的假设；不在查询中的索引词不影响文档相关性的假设 * 总结信息检索模型是信息检索的核心主要问题包括：文档的表示、查询的表示、匹配的度量三种模型的优缺点比较新的检索模型？潜在语义索引模型潜在语义索引=Latent Semantic Indexing，LSI 问题引出自然语言文本中的词汇(术语)具有一词多义(polysemy)和一义多词(synonymy)的特点. 由于一词多义, 基于精确匹配的检索算法会返回许多用户不需要的东西; 处理什么地方处理旧家具？你去把那个叛徒处理了处理自然语言很难由于一义多词, 基于精确匹配的检索算法又会遗漏许多用户想要的东西. “互联网”，“万维网”，“因特网”，“国际互联网”等精确匹配的问题设Doc1, Doc2, Doc3是三个文件. 一些术语在这三个文件中的出现情况如下表: 假定用“information”和 “computer”作为主题词进行检索, 那么Doc2和Doc3与之精确匹配，因而中选。然而, Doc2是用户