元搜索引擎结果去重及排序研究.docVIP

下载本文档

6
0
约3.01千字
约 6页
2018-06-20 发布于福建
举报
版权申诉

元搜索引擎结果去重及排序研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

元搜索引擎结果去重及排序研究

元搜索引擎结果去重及排序研究　　摘要：结果去重和排序是提高元搜索引擎结果质量的两个关键问题，文章分析余弦相似度、基于TF-IDF的文本相似度三种去重算法，利用URL、标题和计算摘要相似度三方面去重；研究了Board排序、星星排序、轮询法、位置排序和概念可行度对检索结果的影响，提出了一种综合排序算法。实验结果表明，综合排序算法在准确率、召回率等方面都优于其他算法。　　关键词：元搜索;相似度;去重;排序　　中图分类号：TP311 文献标识码：A DoI: 10.3969/j.issn.1003-6970.2012.06.016 　　Meta Search Engine Results to Weight and Sorting of 　　【Abstract】Go heavy and sorting are two key issues to improve the quality of the results of the meta-search engine, the article analyz 　　es the cosine similarity, three kinds of text similarity based on tf-IDf weight algorithm, using the UrL, title, and calculation of summary similarity toweight; Board sort stars sort, the polling method, location, sort, and the concept of feasible search results, a comprehensive sorting algorithm. the experimental results show that the integrated sorting algorithm accuracy, recall rate of better than other algorithms. 　　【Key words】Meta-search; Similarity; to heavy; Sort 　　元搜索引擎是指通过集成多个独立的搜索引擎，将用户的检索请求转换处理后提交给它们，并将每个独立搜索引擎返回的结果统一进行去重，并重新排序后反馈给用户[1][2]。由于元搜索的数据来源是独立搜索引擎，返回的结果中通常会有重复数据，同一条结果在不同搜索引擎中返回结果的位置也不一样，因此，如何去除重复数据，同时将质量好的结果排序靠前是元搜索要解决的两个关键问题。　　元搜索的结果来自用多个独立的成员搜索引擎，虽然不同的成员搜索引擎的覆盖范围不一样，但返回的结果中会出现重复数据，降低了检索结果的质量[3]。因此，在将结果返回给用户前，需要将重复内容去除。重复内容通常会有如下两种情况：一种是内容完全一样，另一种是内容相似，如同一个内容主题，在不同的网站用了稍微有区别的表示。　　第一种重复只需要判断URL或网页标题即可识别，第二种内容重复则需要计算返回结果中的标题、摘要的相似度，达到某一相似度即可判断为重复。因此，在结果去重时首先判断两网页的URL和标题是否相同，若是，则认为重复；否则，提取两网页的摘要并进行相似度计算，判断两网页是否为重复网　　文本相似度的计算方法通常采用文本挖掘中的余弦相似度来衡量，基本思想是将待检测的文本表示为一个特征向量，通过计算向量的夹角余弦值来判断。余弦值接近于1，说明相似度较高。特征向量通常用字或者词出现的次数来表示，如：令Di为待检测文档，其特征向量表示为：　　Di=D((ti1,wi1),(ti2.wi2),…,(tin.win)) 　　其中tij表文档i的第j个特征词，wij表示该特征词的频次。文档Di和Dk之间的相似度利用公式（2）计算：　　TF-IDF算法是通过统计文档词频来计算词权重[4]，基本思想是：一个词在特定文档中出现的次数越高，说明它在区分该文档内容属性方面的能力越强（TF），一个词语在文档中出现的范围越广，说明它区分文档内容的属性越低（IDF）。其计算公式为：　　wij=tfij×idfj=tfij×log( 　　其中tfij指词语tj在文档di中出现的次数；idfj指出现词语tj的文档的倒数。N表示文档总数，nj指出现词语tj的文档数。wij表示了词语tj在文档的权重，使用该值来表示文档特征向量。　　元搜索的结果排序是指对其调用的所有成员搜索引擎返回结果重新进行排序处理。目前元搜索引擎采用的排序算法多种多样，有的是对成员搜索引擎返回的结果信息进行综合，根据各个成员搜索引擎的排序信息，来重新进行排序；有