lucene结果排序.docVIP

下载本文档

1
0
约8.51千字
约 11页
2018-02-20 发布于河南
举报
版权申诉

lucene结果排序.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

查看更多

lucene结果排序

HYPERLINK /blog/1219565 Lucene3.0之结果排序博客分类： HYPERLINK /category/185592 Lucene3.0之结果排序 Lucene3.0之结果排序（原理篇）传统上，人们将信息检索系统返回结果的排序称为相关排序 ?（ relevance ranking） ?，隐含其中各条目的顺序反映结果和查询的相关程度。 1、? 基本排序原理 ①????? 向量空间模型 Gerald Salton?等在 ?30?多年前提出的向量空间模型 ?（ Vector Space Model， VSM） [Salton and Lesk,1968, Salton,1971]。该模型的基础是如下假设：文档 d和查询 q的相关性可以由它们包含的共有词汇情况来刻画。经典的 TF*IDF词项权重的计算公式： ?????????给定某种权重的定量设计，求文档和查询的相关性就变成了求 ?d?和 ?q?向量的某种距离，最常用的是余弦（ cos）距离 ? ②????? 链接分析 PageRank原理链接分析技术主要基于两个假设： 1）一个网页被多次引用，则它可能是很重要的，如果被重要的网页引用，说明自身也是重要的，网页的重要性在网页之间可以传递。 2）随机冲浪模型：认为假定用户一开始随机地访问网页集合中的一个网页，然和跟随网页的链接向前浏览网页，不会退浏览，那么浏览下一个网页的概率是被浏览网页的量化的重要程度值。按照以上的用户行为模型，每个网页可能被访问到的次数越多就越重要，这样的可能被访问的次数也就定义为网页的权值， PageRank值。如何计算这个权值呢？ PageRank采用以下公式进行计算：其中wj代表第 j个网页的权值；lij只取 0、 1值，代表从网页 i到网页 j是否存在链接；ni代表网页 i有多少个连向其它网页的链接； d代表随机冲浪中沿着链接访问网页的平均次数。选择合适的初始数值，递归的使用上述公式，即可得到理想的网页权值。 2、? Lucene排序计算公式 Lucene的排序公式如下： 1)，协调因子，表示文档（ d）中 Term(t)出现的百分比，也就是计算查询条件（ q）中不同 Term(t)，以及在文档中出现的数量之和，两者的数量之比。通常在文档中出现查询 Term种类越多，分值越高。 2)，调节因子，不影响索引排序情况，只在检索时使用，主要是用来让排序结果在不同的查询条件之间可以比较。这个条件是在搜索时候计算。数值是根据每一个查询项权重的平方和计算得到。计算公式如下： ???????????? 3)?，文档频率，表示查询词中，每个 Term在对应的结果文档中 (d)中出现的次数。查询词出现的次数越多，表示出现频率越高，文档的检索得分就越高。为了避免获得更大的相关性函数，实际中，使用次数的平方跟作为文档频率 tf的值，避免数值过度放大。 4)?，逆文档频率，检索匹配文档数量的反向函数。按照信息理论，文档出现的次数越少，每一篇文档的信息量就会越大。所以匹配的文档数越少，得分就越高。而索引库中文档总数越多，找到一篇目标文档难度越大，相应的信息量也会比较大。 5)?，长度因子，每个索引词汇在域中的总体长度决定的，这个参数在索引建立时确定。数值根据文档中实际具有的索引项个数确定。检索词长度在文档总长度中占的比例越大，长度因子的数值也越大。 ? Lucene3.0之结果排序（操作篇） ? 1、? Lucene相关排序流程 2、? Lucene相关类 ①????? Query类：一个抽象类， Lucene检索结果最终评分的总控制中心。其它评分有关的类和对象都是由 Query类来管理和生产。 ②????? Weight类接口：定义 Query权重计算的一个实现接口，可以被重用。 Weight类可以用来生成 Scorer类，也可以解析评分的详细信息，另外还定义了获取 Query权值的方法。 ③????? Scorer类： Lucene评分机制的核心类。类的定义是抽象类，提供的一些抽象基本的计分功能方法提供所有的评分类实现，同时还定义了评分的详细解析方法， Scorer类内部有一个 Similarity对象，用来指明计算公式。 ④????? Scorer类： Lucene相似度计算的核心抽象类。 Similarity类主要处理评分计算，系统缺省使用类 DefaultSimilarity类对象 3、? 排序控制使用 Sort对象定制排序，通过改变文档 Boost值来改变排序结果以及使用自定义的 Similarity方法更改排序 4、? 文档 Boost加权排序 ①????? Boost是指索引建立过程中，给整篇文档或者

您可能关注的文档

最近下载

文档评论（0）

xy88118 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 寻找合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录; 分享赚钱

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧，让你安心创作及上传更多优质地内容及提供知识服务！上传QQ群（最新）：751299218。
有任何问题，请随时联系智能客服，侵权专属客服QQ：2885784724！其它问题点击联系我们！本站内容，未经授权，不得采集、搬运！包括但不限于Al采集后用于训练，侵权必究！

公安局备案号:51011502000106|工信部备案号:蜀ICP备08101938号-1|ICP经营许可证/EDI许可证:川B2-20180569|公司营业执照|出版物经营许可证:成新出发高新字第046号|网信算备:510107145616301250011号
© 2010-2025 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992