搜索引擎开发培训课程提纲课件.pptVIP

  • 8
  • 0
  • 约1.94千字
  • 约 33页
  • 2016-12-16 发布于山西
  • 举报
Find Real Matter 搜索引擎开发培训课程提纲 前导知识 Core Java 《 Java技术手册》 编译原理 《 Modern compiler implementation in Java 》 概率论 《应用随机过程:概率模型导论》 数据结构 《 JAVA算法》 了解搜索引擎 Google神话. 体验搜索引擎 把搜索范围限定在网页标题中——intitle. 把搜索范围限定在特定站点中——site. 把搜索范围限定在url链接中——inurl. 做自己的搜索(代码) 实现制作索引的功能,实现搜索功能. 遍历搜索引擎技术 30分钟实现的搜索引擎 . 准备工作环境(10分钟) . 编写代码(15分钟) 发布运行(5分钟) 实现一个基于WEB结构的搜索引擎。(代码) 网络蜘蛛 全文索引结构 Nutch网络搜索软件 商业搜索引擎技术介绍 自己的网络蜘蛛(代码) 广度遍历 深度遍历 正则表达式 BerkeleyDB BerkeleyDB.原理与使用方法 B树讲解 基本API使用(代码) 抓取技术 抓取网页 MP3 抓取 RSS 抓取 图片抓取 垂直行业抓取 抓取数据库中的内容 抓取本地硬盘上的文件 提取文档中的文本内容 从HTML文件中提取文本 结构化信息提取 网页去噪 htmlparser的基本使用(代码) 正文提取 DOM树原理 NekoHTML讲解 NekoH

文档评论(0)

1亿VIP精品文档

相关文档