基于Nutch的新闻主题搜索引擎的设计与实现设计.docVIP

  • 3
  • 0
  • 约4.56万字
  • 约 53页
  • 2016-04-16 发布于河南
  • 举报

基于Nutch的新闻主题搜索引擎的设计与实现设计.doc

毕业论文

毕 业 论 文(设 计) 论文(设计)题目: 基于Nutch的搜索引擎的设计与实现 学 号 学 院 专 业 年 级 指导教师 2014年月 20日 摘要 I ABSTRACT II 第1章 绪论 1 1.1 课题研究背景 1 1.1.1 搜索引擎发展史 1 1.1.2 通用搜索引擎面临的问题 3 1.2主题搜索引擎 3 1.2.1 什么是主题搜索引擎 3 1.2.2 主题搜索引擎研究现状 4 1.3 文本组织结构 5 第2章 主题搜索引擎相关技术介绍 6 2.1 JavaCC简介 6 2.2 Tomcat 简介 8 2.3 Nutch介绍 9 2.3.1 系统架构 9 2.3.2 抓取过程详解 11 2.4 中文分词技术 13 2.4.1 基于字典匹配的分词方法 14 2.4.2 基于词频统计的分词方法 14 2.4.3 基于语义理解的分词方法 15 2.4.4 IK分词器简介 15 2.5 本章小结 15 第3章 爬虫搜索策略的研究 16 3.1 基于链接结构特征 16 3.1.1 PageRank算法 16 3.1.2 HITS算法 18 3.1.3 本文实现的算法 19

文档评论(0)

1亿VIP精品文档

相关文档