搜索引擎日志分析方法技术和应用.doc

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎日志分析方法技术和应用

摘要 搜索引擎技术的出现帮助为web用户在浩如烟海的WWW上快速发现、定位信息带来了福音,目前搜索引擎已经是WWW上除Email之外使用最多的服务。目前搜索引擎面临的主要困难是检索质量不高,用户满意度不高。 本文试图通过分析“天网”搜索引擎的日志来得到用户访问“天网”系统的一般性规律,并从分析结果出发改造搜索引擎。为此,我们安排了两组实验,一组实验是试探性的,我们统计了用户访问“天网”系统的查询、翻页、点击行为,希望从中得到一些规律;另一组实验是针对性的,我们针对cache系统设计了一组实验,希望能验证cache系统的必要性和可行性,并对cache系统的构成、组织进行模拟测试。通过这些工作,我们发现了用户访问“天网”系统的一些规律,发现了用户的查询词序列、点击url序列、以及索引端的单词访问序列都具有较强的集中性、长期稳定性以及短期相关性,它们从不同角度说明了访问局部性,这个计算机科学中经常讨论的核心现象之一,在海量网络信息环境下的具体体现。 从实验分析结果出发,论文还报告了对“天网”系统三个方面的改进:新增“位置相关性”模块来提高查询质量;改造Cache系统来提高响应速度;增加自动目录导航服务来引导用户,从而全面提高了天网系统的能力和质量。 关键词:搜索引擎,日志分析,位置相关性,目录导航服务 Abstract Search engine can greatly help web users to quickly discover and locate information on www. Now it has become the second most used service on www. Now primary problems of search engine are low quality of search result, and low satisfaction of users and so on. This thesis tries to find the general rules of users access to the Tianwang search engine. We analyzed the log of the Tianwang search engine. There were two groups of experiments, one was exploratory, just generally making statistics about the users’ behaviors of querying, paging, and clicking in the result pages and so on; the other was object-driven, focused on cache system. We tried to validate that cache system is indeed indispensable and feasible. Finally, we found that the sequence of the users’ query words, the pages clicked, and the terms requested to the indexer all possess strong locality. From the analysis result of experiments, we rebuilt Tianwang System from three aspects. We added position relativity module to improve search quality, reconstructed cache system to reduce response time, and added the service of automate directory navigation to improve the degree of users’ satisfaction. Keywords: search engine, log analysis, position relativity, directory navigation service 目录 摘要 i Abstract ii 第一章 引言 1 1.1 研究背景 1 1.2 研究方法 2 1.3 本文主要贡献 3 1.4 全文组织 4 第二章 相关研究 5 2.1 搜索引擎 5 2.1.1 搜索引擎发展历史 5 2.1.2 搜索引擎分类 6 2.1.3 搜索引擎发展趋势 8 2.1.4 搜索引擎存在的问题 9

文档评论(0)

bokegood + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档