网站大量收购闲置独家精品文档,联系QQ:2885784924

全国搜索引擎与网上信息学术研讨会SEWM中文Web.ppt

全国搜索引擎与网上信息学术研讨会SEWM中文Web.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

全国搜索引擎与网上信息学术研讨会SEWM2006中文Web检索

华南木棉信息检索木棉检索队:张元丰,陈晓志,陈晓锋http://*目录木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望*木棉搜索引擎现状基于Nutch的实现;对URL、Title、Anchor、Content进行索引;PageRank算法的应用;中文分词;基于集群系统的并行化搜索引擎。木棉搜索引擎现状*网页预处理中文分词链接分析文档库索引库网页噪音模板库链接库综合采用多种去噪算法,噪音的去除,可以减少索引量,可以避免噪音对检索结果的影响对站内站外链接赋予不同的权重,保留锚点文本信息链入锚点文本网页url网页标题网页主题内容链出锚点文本基于词频的中文分词Googlepagerank算法简单pagerank算法木棉搜索引擎现状*用户输入查询词索引库二次排序结果*目录木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望数据格式转换*数据格式转换*将3700万网页分成70个part进行处理对每个part建立WebDB合并所有的WebDB123654合并索引对每个part分别建立索引用完整的WebDB更新每一个part的数据*目录木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望关键技术介绍*TD搜索相关主题的文章,主要查找入口页面。ANPHP查找首页或者指定页面。B关键技术介绍*TD扩展查询利用Description对查询词进行扩展,比如: top numNumber:TD146 title股票分析/title descDescription:股票分析的网站,专家评论,论坛和软件 /top 扩展后为:股票分析、股票论坛、股票评论、股票软件;用扩展后的查询词搜索,每个查询词均返回300条结果;合并扩展查询结果。关键技术介绍*TD二次查询优化截取每个查询结果的前200条结果;对这200条结果进行站内聚合,并将每个网站内的ROOT、SUBROOT、url深度小于3的PATH的url提前;对所有被提前的网页按照得分排序,并尽量保证前十条出现不同网站的url,将这些网页放在结果集的前面;对其他网页按照得分进行排序,顺序排列在得到的结果之后。NPHP关键技术介绍*对于所给的查询集,我们根据查询词很容易就可以分辨出该查询的意图:HPorNP。我们手工对查询词进行判断(RANK4和RANK5没有这一步骤),添加H(homepage)或N(namepage)标记。这一步骤主要是查询优化时使用;在索引库中查询,并返回200条搜索结果;对搜索结果进行二次排序。算法主要是基于华南理工大学胡俊刚等的《基于URL类型优先级入口页面查询算法》。同时判断查询词的H标记或者N标记,把结果中的主页提取到前面(H)或放到后面(N)。关键技术介绍*PageRankGooglePageRank在要求不高的情况下,迭代计算5次即可。简单PageRank可以反映网页的重要程度。*目录木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望结果提交*CWT200g—TD序号中文分词扩展查询PR二次排序RUN1√√简单√RUN2√简单√RUN3√简单√RUN4简单√RUN5√√√结果提交*CWT200g—NPHP序号中文分词手动标记PR二次排序RUN1√√简单√RUN2√简单√RUN3√√简单RUN4√简单√RUN5简单√*

文档评论(0)

wuyoujun92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档