概率检索综述.pptVIP

  • 15
  • 0
  • 约1.45万字
  • 约 60页
  • 2017-08-25 发布于云南
  • 举报
概率检索综述 “补课”的内容,如果有什么问题请大家积极提出讨论;由于学习时间仓促,有什么错误请大家及时指出 由于概率检索理解起来比较困难,大家如果有从不同的角度来理解某个问题的,在中间可以提出来供大家借鉴 概率检索内容与模型都比较多。这里只试图讲清楚其原理还有两个模型(Binary Independence Retrieval Model与Language Model),ppt内容较多,只选择部分BIR和LM这两个部分详细讲。 该PPT参考了一些论文中的例子,以及部分ppt中的页面,这里预以说明,在引用了的ppt页面的备注部分有例子的原作者说明 Outline 热身: 2 Examples(Bayes’s and BIR) Binary independence Retrieval(BIR) Basic Principles and Concepts in Probabily IR Relevance Models(BIR、BII、DIA etc.) Inference Models (…) Language Modeling Approach in IR Survey on Surveys Others(Q/A、Discuss、Conclusion or Future works) Example(1): Bayes’s Theorem Probability: 从统计学的意义上来讲就是是一个频率n ? ? 概率是一种测度,概率空间包含了基本事件、概率事件、概率测度 Bayes’s Theorem P(A and B) = P(A|B) x P(B)= P(B|A) x P(A) Example(1): Bayes’s Theorem Hypotheses:H1,H2,H3 Observable evidence: O P( O|Hi ) = probability of O being observed if we knew Hi were true 定义问题: Example(1): Bayes’s Theorem 假如我们进行调查测量得到 P(O|H1) = 0.6 P(O|H2) = 0.07 P(O|H3) = 0.001 Example(1): Bayes’s Theorem(完) 考虑P(Hi | O) 假如我们观测到更加详细的数据 P(O|H1) = 0.6 P(H1) = 0.0001 doctor P(O|H2) = 0.07 P(H2) = 0.001 prof P(O|H3) = 0.001 P(H3) = 0.2 food Example(2):Binary Independent Retrieval BIR检索基本思路: 定义问题:P(R | qk ,dm),文档dm与查询qk之间的相似度的概率(Probability of relevance of the document to a given query) 对于所有的D,估算P(R | qk ,dm),然后降序返回 Denotions: T={t1 , , , , , tn} 表示文档集合(collection)中所有的terms document dm中出现的所有的term的集合 将dm表示为 X=(x1,…, xn) with xi=1 if ti in Otherwise xi =0 Example(2):BIR BIR的实例 考虑一个包含20个文档的collection,term t1和t2在所有文档中的分布如表中所示。 Query: t1,t2 如何返回Document的ranking呢 Example(2):BIR Example(2):BIR Example(2):BIR c1=log(10/3)=1.2 c2=log(7/5)=0.33 因此rank的顺序为(1,1)—(1,0)—(0,1)--(0,0) Document的顺序为[1,2,3,4,5]---[6,7,8,9,10,11]—[12,13,14,15,16,17]—[18,19,20] 很显然这个ranking对于我们的例子是正确的 Outline 热身: 2 Examples(Bayes’s and BIR) Binary independence Retrieval(BIR) Basic Principles and Concepts in Probabily IR Relevance Models(BIR、BII、DIA etc.) Inference Models (…) Language Modeling Approach in IR Survey on Surveys Othe

文档评论(0)

1亿VIP精品文档

相关文档