20010615面向主题搜集系统中搜集策略的研究与评测 - 北京大学.doc

20010615面向主题搜集系统中搜集策略的研究与评测 - 北京大学.doc

20010615面向主题搜集系统中搜集策略的研究与评测 - 北京大学

论 文 评 定 意见评语: “面向主题的搜索引擎”,是我们“天网”搜索引擎下一步发展的重要方向之一。龚笔宏同学的毕业论文,是这一新方向的良好开端。 论文所涉及的工作包含了对搜索引擎技术的一般认识,通用搜索引擎和面向主题搜索引擎的对比,面向主题搜索引擎的基本工作方式,以及在各个环节中所涉及的有关算法对比与分析;而且,将上述知识和认识有效地应用到了程序设计实践中,高质量地完成了一个面向影视主题的搜索引擎系统,搜集了几十多万影视信息,在影视信息方面提供着比“天网”通用搜索引擎更有效的服务;论文内容丰富,所涉及的工作量大,且有较强的系统性,是一篇优秀的本科毕业论文。 在毕业设计工作的过程中,龚笔宏同学态度端正,积极努力,精力集中,独立思考,表现出很强的进取精神和踏实的工作作风,为“天网”的发展做出了贡献。 老师签名:__李晓明__ 摘 要 “天网”中英文搜索引擎是具有中文特色的搜索引擎,但是随着当前网络的不断增长,以及用户应用的不停变化,通用的搜索引擎已经不能应付各种不同的检索请求. 面向主题的搜集系统是针对一个主题,一类网页的搜集系统,也就是说只搜集整个网络的一个特定子集. 所谓主题,可以用一系列例子页面来确定,也可以用一系列的特征词来确定. 搜集的目标就是 与例子页面在内容上类似的页面. 我们对目前所采用的各种面向主题的搜集算法进行了研究,同时进行了初步的评估.以此为指导, 确定了一套搜集算法. 这套算法是基于原有的天网搜索引擎,而实现的.能够有效,准确的进行同主题搜集.,根据实现的结果说明面向主题搜集的优势所在,以及其发展的可能性. 本文的大纲如下: 本文首先说明了什么是通用的搜索引擎, 什么是面向主题的搜集系统,以及此二者的区别. 接着提出了几种搜集策略, 总的来说,把面向主题的搜集系统分为三个部分: 搜集例子, 特征提取,根据特征进行搜集. 对这三部分 各分析了几种策略,同时进行了分析,评估. 然后介绍了目前我们所实现的策略. 我们主要采用的是基于向量空间模型, 结合天网的特点 的特征提取. 搜集方面我们主要加入了对连接关系的考虑,对出度入度的考虑, 接着对我们的工作进行了总结,评价了所实现的系统,说明面向主题比通用搜索引擎的区别,以及其优势. 最后是对未来工作的展望, 现有系统的不足以及改进 关键词:搜索引擎,主题,文本分类,特征提取,连接关系,信息挖掘 目 录 论文载要………….…………………………………………………………………………………...2 目录……………………………………………………………………………………… ……….…..3 第一章 面向主题的搜索引擎………………………………………………………………………4 §1.1搜索引擎的介绍 ……………………………………………………………………..….…4 搜索引擎的使用 搜索引擎的分类 搜索引擎的未来 §1.2面向主题的搜索引擎……………………………………………………………… …….. 6 §1.3二者的区别比较……………………………………………………………………………8 天网搜索引擎的介绍…………………………………………………….……………….10 §2.1 天网系统简介…………………………………………………………………………….10 §2.2天网总体结构……………………………………………………………………………..11 搜集策略的研究和比较………………………………………………………………..…12 §3.1 概述……………………………………………………………………………….………..12 §3.2确定目标样本…………………………………………………………………..…………13 §3.3特征提取部分的几种策略………………………………………..………………………13 §3.4搜集部分的策略…………………………………………………………………………...14 §3.5小 结………………………………………………………………………………………...20 我们的实现…………………………………………………………………………………21

文档评论(0)

1亿VIP精品文档

相关文档