- 1、本文档共151页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
04检索的改进技术整理
* * * * * * * * * * * * * * * 批更新实时性差 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 需要针对每个term,计算 N(N-1)/2 个文档对的相似度 * * * * * * * 文档检索 查询规范化 用户的信息需求 形式语言 文档表示 文档 索引 检索 相关反馈 检索出来 的文档 相关反馈(Relevance Feedback) 手工的query再生成很难控制 相关文档和不相关文档的特征不明显 文档特征很难被转化为正确的query形式 相关反馈 : 根据用户对文档的相关性评估产生新的查询 Query修改过程 F: 从用户那里接受相关性评估,输出相关文档和不相关文档 G: 实现相关反馈公式 检索 过程 F G 原始Q 排序输出 相关和不相关 的文档 重新形成的 query Q’ 相关评估 相关反馈的作用 x x 原始query x x 重新形成的query x 相关文档 不相关文档 根据原始的query 检索出5篇文档 Query修改的基本思路 出现在相关文档中的terms被添加到原始的query向量中, 或者这些term的权重在创建新的query时有某种程度的增长 出现在不相关文档中的terms被从原始query中删除,或者这些term的权重某种程度地降低 理想情况 处理query term后 相关 不相关 分值 N documents 分值 initial Rel docs Nonrel docs 分值 t1贡献的分值 t2贡献的分值 t3贡献的分值 理想情况:query terms只 出现在相关文档中! Q = t1, t2, t3 一般情况 Q = t1, t2, t3 相关 不相关 分值 t1贡献的分值 t2贡献的分值 t3贡献的分值 一般来说,一个term可能在相关文档和不相关文档中都出现 问题是:是否应该在query中包含它,如果包含,怎样打分 优化的Query 根据已知的相关文档集DR和不相关文档集DN , 令 tik 表示词项 k 在文档i中的权重, 词项 k在两个集合中的平均权重分别为: 和 在优化后的query Qopt中词项 k 的权值定义为: 考虑不同的情况: 如果tk 仅出现在相关文档中, 它的权值非常高 如果tk 仅出现在不相关文档中, 它的权值就小,甚至为副 如果tk 在两类文档中都出现, 它的权值介于中间 Query修改 将用户提示的相关文档集DR’ 和不相关文档集DN’作为对DR 和DN 的估计,重复地修改query达到优化的目的 从初始query开始 Q 是初始的query, ?, ?和? 是一个合适的常数 Q, Q’,Di均为加权向量 以上的query修改公式是建立在已知全部相关文档集和不相关文档集的基础上,但是相关反馈只告诉了你“一些”相关或不相关的文档 举例 Q:初始query D1: 相关文档 D2:不相关文档 ? = 1, ? = 1/2, ? = 1/4 假设: T1 T2 T3 T4 T5 Q = ( 5, 0, 3, 0, 1) D1 = ( 2, 1, 2, 0, 0) D2 = ( 1, 0, 0, 0, 2) S(Q,D1) = (5?2)+(0 ? 1)+(3 ? 2)+(0 ? 0)+(1 ? 0) = 16 S(Q’,D1)=(5.75 ? 2)+(0.5 ? 1)+(4 ? 2)+(0 ? 0)+(0.5 ? 0)=20 S(Q,D2) = (5?1)+(0 ? 0)+(3 ? 0)+(0 ? 0)+(1 ? 2) = 7 S(Q’,D2)=(5.75 ? 1)+(0.5 ? 0)+(4 ? 0)+(0 ? 0)+(0.5 ? 2)=6.75 向量空间模型中的反馈与查询重构 用Cr表示文整个档集中所有相关文档的集合,|Cr|表示Cr中文档的数量,用N表示整个文档集合,dj表示单一文档j 我们的目标就是希望寻找到 这样我们可以把用来区分相关文档和不相关文档的最佳查询向量定义为 向量空间模型中的反馈与查询重构 如果直接使用这个公式来确定最佳查询,显然会遇到很大麻烦,因为Cr是一个未知量,而任何对Cr的理想估计都会带来一定的误差 Rocchio利用迭代求精的方法来解决这个问题 Di表示第i次检索所返回的文档中,用户标明为相关文档的集合。 Dn,i表示第i次检索所返回的文档中,不相关文档的集合。 |Di|和|Dn,i|分别表示Di和Dn,i中的文档数量
文档评论(0)