全国搜索引擎与网上信息学术研讨会SEWM2006---中文Web.pptVIP

  • 19
  • 0
  • 约2.05千字
  • 约 23页
  • 2017-02-12 发布于湖北
  • 举报

全国搜索引擎与网上信息学术研讨会SEWM2006---中文Web.ppt

华南木棉信息检索 木棉检索队:张元丰,陈晓志,陈晓锋 目录 木棉搜索引擎现状 数据格式转换 关键技术介绍 结果提交 分析与展望 木棉搜索引擎现状 基于Nutch的实现; 对URL、Title、Anchor、Content进行索引; PageRank算法的应用; 中文分词; 基于集群系统的并行化搜索引擎。 木棉搜索引擎现状 木棉搜索引擎现状 目录 木棉搜索引擎现状 数据格式转换 关键技术介绍 结果提交 分析与展望 数据格式转换 数据格式转换 将3700万网页分成70个part进行处理 对每个part建立Web DB 合并所有的Web DB 用完整的Web DB更新每一个part的数据 对每个part分别建立索引 合并索引 目录 木棉搜索引擎现状 数据格式转换 关键技术介绍 结果提交 分析与展望 关键技术介绍 TD 搜索相关主题的文章,主要查找入口页面。 NPHP 查找首页或者指定页面 。 关键技术介绍 TD 扩展查询 利用Description对查询词进行扩展,比如: top numNumber:TD146 title股票分析/title descDescription:股票分析的网站,专家评论,论坛和软件 /top 扩展后为:股票分析、股票论坛、股票评论、股票软件; 用扩展后的查询词搜索,每个查询词均返回300条结果; 合并扩展查询结果。 关键技术介绍 T

文档评论(0)

1亿VIP精品文档

相关文档