评估数据融合中得分规整的方法.docx

下载文档 降价啦

9
0
约6.35千字
约 16页
2017-02-16 发布于重庆
举报
版权申诉
保障服务

评估数据融合中得分规整的方法.docx

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

评估数据融合中得分规整的方法

目录评估数据融合中得分归一化的方法21 Abstract22 Introduction23数据融合44 不同得分归一化方法对数据融合效果的影响61.method62.result105 在不同的分数秩区间内相关文件的分布情况12线性转化：12实验过程136 Conclusion15评估数据融合中得分归一化的方法1 AbstractIn data fusion, score normalization is a step to make scores, which are obtained from different component systems for all documents, comparable to each other. It is an step for effective data fusion algorithms such as CombSum and CombMNZ to combine them. In this paper, we evaluate four linear score normalization methods, namely the fitting method, Zero-one, Sum, and ZMUV, through extensive experiments. The experimental results show that the fitting method and Zero-one appear to be the two leading methods.数据融合把多个信息系统的数据融合到一起，形成一致性的数据模型；评分归一化是数据融合算法不可缺少的一步，是打分过程的一个步骤，我们从所有文件不同的系统成分中获取分数并相互比较。在本篇文献中，评估四种线性评分规一化方法，即，the fitting method, Zero-one, Sum, and ZMUV，通过大量的实验结果证明the fitting method and Zero-one是两种更好的方法。2 Introduction在信息检索中，数据融合是被很多研究者研究和建立的好的方法数据融合就是把多个信息系统的数据融合到一起，形成一致性的数据模型。数据融合的主要思想是整合多重信息检索系统中得到的检索文件到一个列表中，通过给定的检索，我们能更准确的评估所有相关的文件。它为运行有效的信息检索系统提供一种选择。它也被用来在万维网环境中，作为一种元搜索引擎，从其他的搜索引擎中融合合成的文件。元搜索引擎在接受用户查询请求时，同时在其他多个引擎上进行搜索，并将结果返回给用户。元搜索：随着互联网的迅猛发展，Web信息成爆炸式增长的趋势，如何更好、更全、更快地从中获取对我们有价值的信息，成为信息检索领域研究的最主要任务。然而任何一个普通的搜索引擎都无法覆盖所有的Web信息，因此，在检索时，希望能够同时使用不同的搜索引擎来提高检索的覆盖率以及查全率，获取更多、更好的有价值结果。为此，元搜索引擎在这种需求驱使下诞生并发展起来。元搜索指的是通过向多个搜索引擎发送搜索请求，将所得到的结果进行合并，以试图得到更好的结果列表呈现给用户的一种搜索方式。考虑到针对一个搜索，每个通用搜索引擎能够给出很多相关的文档，元搜索可以通过将多个通用搜索引擎结果合并比较来发现其中更为相关的文档，从而提升前k个结果中的精确度和相关度。当前元搜索主要研究的问题有以下三个方面。（1）数据库/搜索引擎选择问题（database selection problem）该问题主要研究对于一个给定的query，如何选择那些更有可能返回相关度更高文档的搜索引擎进行检索。（2）文档选择问题（Document selection problem）该问题主要研究对于选择的搜索引擎，需要从这些搜索引擎中选取多少文档。（3）结果合并问题（Result merging problem）该问题主要研究如何将从各个搜索引擎得到的结果进行合并，以给出更好的检索排序。对于用户提交的查询，元搜索会将查询query提交给不同的成员搜索引擎。由于不同成员搜索引擎返回的结果不仅数量多，且存在重复的问题，如何选择返回的查询结果以及对选择的结果进行合并排序，直接影响到元搜索搜索引擎的整体性能。目前主流的对搜索结果合并排序的方法主要有两种，一种是基于相关性评分（relevance score）的方法；一种是基于返回结果的rank值的方法。（1）基于相关性评分的方法该方法的主要思路是依据不同的成员搜索引擎对于固定的查询词与文档集之间一一对应的相关性评分的值，来确定最终返回给用户的文档排序结果。在计算最终返回给用户的文档集与查询的相关性评分的方法中，有基于评分的最大值（CombMAX）、最小