基于倒排文件中一种性能模型研究.docVIP

下载本文档

3
0
约2.7千字
约 6页
2018-06-20 发布于福建
举报
版权申诉

基于倒排文件中一种性能模型研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于倒排文件中一种性能模型研究

基于倒排文件中一种性能模型研究　　摘要：倒排文件作为现代大规模搜索引擎工作的一个核心技术，其原理简单，具备灵活高效的特点，具体体现在其根据需要可做到适当的变通。本文通过在给定搜索引擎系统内部参数的前提下对其吞吐率的研究，建立一种倒排文件性能模型，该模型有效地提高了倒排文件的运行效率。　　 　　关键词：倒排文件；搜索引擎；性能模型；信息检索 　　中图分类号：TP31 文献标识码：A 　　 　　Web Log Mining Based on the Weight of the Technical Analysis Page 　　 　　CHEN Hao 　　（Guangdong Technical College of Water Resources and Electric Engineering， Guangzhou510925， China）　　Abstract：Inverted file as a core technology of the modern largescale search engine. The principle is simple， with a flexible and efficient features. Reflected in needed to do the appropriate modifications. This article by the premise of the internal parameters of a given search engine system throughput. Establishment of a performance model of the inverted file. The model can effectively improve the operating efficiency of the inverted file. 　　 　　Key words：inverted file；search engine；performance model；information retrieval 　　 　　1引言 　　评价一个大规模信息检索系统，有两个方面基本的考虑：效果和效率。效果也称之为质量，指检索返回结果集合的准确性、相关性和完整性。效率即为性能，其中最重要的指标就是查询响应时间和吞吐率。 　　倒排文件是大型信息检索中使用最为广泛的文件索引方法。所谓“倒排”表示依据检索属性来列举相关文件，是计算机科学中基本的信息查询方法之一，并在数字图书馆和搜索引擎中广为使用。本文通过对倒排文件算法的深入研究，提出了一种性能模型，为倒排文件及其实现的效果做了详细的分析研究，倒排文件的性能得以提高。　　2倒排文件的概念 　　所谓倒排文件是描述一个词项集合元素即TERMS和一个文档集合元素即DOCS对应关系的数据结构，记为： 　　DOCS={d1，d2，…dN}，TERMS={t1，t2，…，tM} 　　在以“文档”为出发点时，称之为di中包含哪些tj，也可理解为某一个tj在di???档中出现了多少次。而“倒排文件”直接给出的是一个tj出现在哪些di中，进而还可以有它在某一个di中出现在哪些位置，包含多少次。用PL（tj）表示tj出现于其中的文档记录的集合，称为对应于tj的倒排表，下面是信息检索研究中常用的几个相关量。 　　N：文档集合的大小 　　M：词项集合的大小 　　Sj=|PL（tj）|：词项tj所涉及文档的个数 　　DF（tj）=SjN：词项tj的文档频率 　　IDF（tj）=—lgDF（tj）：倒置文档频率；其值越小表示出现频率越高。 　　fi，j ：第j个词项tj在第i个文档di中出现的次数 　　TN=∑Ni=1∑Mj=1fi，j：系统所有文档分解后包含词项的总量 　　TF（tj）=∑Ni=1fi，jTN：词项tj在所有文档中出现的频度 　　ITF（tj）=—lgTF（tj）：倒置词频；越小表示出现频率越高 　　作为数据结构，倒排文件分为两部分：第一部分是由不同词项组成的索引，称为词表，第二部分由每个词项出现过的文档集合构成，称为记录文件，每个词项的对应部分称为倒排表，可以通过词表访问。具体倒排文件结构图如下图1所示： 　　图1倒排文件结构图 　　其中左边是词表，中间是记录文件。对应于词表的每一项，记录文件中有若干个倒排表，一半长度记为sj；统计分布为p