- 5
- 0
- 约1.16万字
- 约 9页
- 2016-09-28 发布于江苏
- 举报
搜索引擎的算法.doc
搜索引擎算法研究
1.引言
万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战。
传统的WEB搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的文档,也有基于目录分类的搜索引擎。这些搜索引擎的结果并不令人满意。有些站点有意提高关键字出现的频率来提高自身在搜索引擎中的重要性,破坏搜索引擎结果的客观性和准确性。另外,有些重要的网页并不包含查询项。搜索引擎的分类目录也不可能把所有的分类考虑全面,并且目录大多靠人工维护,主观性强,费用高,更新速度慢[2]。
最近几年,许多研究者发现,WWW上超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大的提高检索结果的质量。基于这种超链分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法[1],同年J. Kleinberg提出了HITS算法[5],其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。这些算法有的已经在实际的系统中
您可能关注的文档
最近下载
- 曲墙式隧道设计(单圆心算法).pdf VIP
- 06 CR200J动车组停放制动控制与显示逻辑梳理.pdf VIP
- 开封大学2026年单独招生《职业适应性测试》模拟试题及答案解析.docx VIP
- 大理州工会招聘考试试题及答案.doc VIP
- 《儿童青少年“五健”促进行动计划(2026—2030年)》解读总结PPT.pptx VIP
- 316L不锈钢激光焊接头组织与性能研究.pdf VIP
- SY∕T 7688-2023 气藏型储气库老井封堵技术规范.pdf
- 基于PLC的机电设备在线监测系统的创新与实践.docx VIP
- 荷兰语a1考试题库及答案.doc
- 照明设计软件:Dialux二次开发_Dialux二次开发常见问题与解决方案.docx VIP
原创力文档

文档评论(0)