一种评价搜索引擎信息覆盖率的模型及其验证.pdfVIP

  • 5
  • 0
  • 约2.73万字
  • 约 5页
  • 2016-03-14 发布于安徽
  • 举报

一种评价搜索引擎信息覆盖率的模型及其验证.pdf

一种评价搜索引擎信息覆盖率的模型及其验证.pdf

第 8 期 电  子   学   报 Vol . 31  No . 8  2003 年 8 月 ACTA ELECTRONICA SINICA Aug.  2003   一种评价搜索引擎信息覆盖率的模型及其验证 孟  涛 ,闫宏飞 ,李晓明 (北京大学计算机科学技术系 ,北京 100871)   摘  要 :  搜索引擎的网页搜集子系统通常以WWW 的网页构成的有向图结构为依据 ,循着网页间的链接进行搜 集从而扩大信息覆盖面. 本文针对这种信息覆盖能力 ,建立量化模型从多个角度考察搜集系统对 WWW 信息资源的覆 盖程度. 文章首先分析了网页搜集不完全性的若干因素 ,在指出信息覆盖率的研究意义后提出了三类重要的信息覆盖 率概念 ,然后围绕其中的数量和质量覆盖率展开研究工作. 在建立“采样 - 权值计算 - 验证”的覆盖率评测模型之后 , 以北大“燕穹”网页信息博物馆为考察对象并获得其网页数据 ,用不同的方式对中国 Web 进行采样 ;然后分别采用 PageRank 和 HITS 两种网页权值算法算出其中的重要网页作为样本 ,从量和质的角度考察“燕穹”系统的信息覆盖率 , 得到合理的数量和质量覆盖率值 ,从而验证了“燕穹”系统信息覆盖率结论的合理性和该信息覆盖率评测模型的可靠 性. 关键词 :  搜索引擎 ; 信息覆盖率 ; 采样 ; 权值计算 ; 验证 ; 数量覆盖率 ; 质量覆盖率 中图分类号 :  TP393    文献标识码 :  A    文章编号 : (2003) An Evaluation Mo del on Information Covera ge of Se arch Engine s MEN G Tao ,YAN Hongfei ,L I Xiaoming ( Dep artment of Comp uter Science Technology , Peking University , Beij ing 100871, China) Ab stract :  Search engines usually get web pages by using links between them. With already massive and ever increasing of web pages ,they can only crawl and index a portion of the whole web pages. A model to evaluate their information coverage percentages is presented. We analyze main factors why crawlers can ’t cover all web information ,and put up three kinds of benchmarks to measure the coverage of a search engine . The paper gives out an evaluation model for two of three benchmarks as follows :First ,sampling WWW to get many web pages ,which are used to check the coverage percentage of quan

文档评论(0)

1亿VIP精品文档

相关文档