- 19
- 0
- 约2.05千字
- 约 23页
- 2017-02-12 发布于湖北
- 举报
华南木棉信息检索 木棉检索队:张元丰,陈晓志,陈晓锋 目录 木棉搜索引擎现状 数据格式转换 关键技术介绍 结果提交 分析与展望 木棉搜索引擎现状 基于Nutch的实现; 对URL、Title、Anchor、Content进行索引; PageRank算法的应用; 中文分词; 基于集群系统的并行化搜索引擎。 木棉搜索引擎现状 木棉搜索引擎现状 目录 木棉搜索引擎现状 数据格式转换 关键技术介绍 结果提交 分析与展望 数据格式转换 数据格式转换 将3700万网页分成70个part进行处理 对每个part建立Web DB 合并所有的Web DB 用完整的Web DB更新每一个part的数据 对每个part分别建立索引 合并索引 目录 木棉搜索引擎现状 数据格式转换 关键技术介绍 结果提交 分析与展望 关键技术介绍 TD 搜索相关主题的文章,主要查找入口页面。 NPHP 查找首页或者指定页面 。 关键技术介绍 TD 扩展查询 利用Description对查询词进行扩展,比如: top numNumber:TD146 title股票分析/title descDescription:股票分析的网站,专家评论,论坛和软件 /top 扩展后为:股票分析、股票论坛、股票评论、股票软件; 用扩展后的查询词搜索,每个查询词均返回300条结果; 合并扩展查询结果。 关键技术介绍 T
原创力文档

文档评论(0)