TianWang in Web Track of SEWM2004.ppt

TianWang in Web Track of SEWM2004.ppt

TianWang in Web Track of SEWM2004 何靖 彭波 {hj,pb}@net.pku.edu.cn 北京大学计算机系网络与分布式实验室 * 内容提纲 问题与分析 设计与实现 未来的工作 问题与分析 TD 查找主题相关的关键资源的入口 HP 查找指定名字的网站的首页 NP 查找指定名字的页面 问题与分析 TD 查找主题相关的关键资源的入口 HP 查找指定名字的网站的首页 NP 查找指定名字的页面 问题与分析 TD 查找主题相关的关键资源的入口 HP 查找指定名字的网站的首页 NP 查找指定名字的页面 设计思路 主题相关 基本的相关排序方法?baseline Vsm similarity, pagernak, query word proximity, 站点入口 homepage , entry page url的特征(深度)作为排序一个因素 同站点内相关网页数量作为排序一个因素 综合外部知识(网站目录) 名字 Phrase/proximity 内容提纲 问题与分析 设计与实现 未来的工作 步骤 网站目录数据收集 选取sohu网站目录做为外部知识库,建立网站目录数据库。 CWT100g数据预处理 链接分析,提取出anchor text,建立anchortext数据库 链接分析,计算pagernak 页面分析和中文分词?包括web page的正文,对应的

文档评论(0)

1亿VIP精品文档

相关文档