- 9
- 0
- 约2.86万字
- 约 37页
- 2017-09-01 发布于浙江
- 举报
封面页教师指导意见
[封面页]教师指导意见:
链接提取是网页搜集系统中的一个重要组成部分。苏杭同学的毕业论文工作,是对这一部分的突出贡献。
论文所涉及的工作包含了对搜索引擎技术的一般认识。链接提取模块以“容错性”,“正确性”,“全面性”,“高效性”和“可扩展性”为设计目标,在充分认识到传统的链接提取方法不足的基础上,提出新的设计思路,并且实现。该模块包括信息提取,信息加工,信息分析和信息存储四个过程。并成功的运用于“天网”搜索引擎。论文内容丰富,所涉及的工作量大,且有较强的系统性,是一篇很有价值的论文。
在毕业设计工作的过程中,苏杭同学态度端正,积极努力,精力集中,表现出很强的进取精神和踏实的工作作风,为“天网”的发展做出了贡献。
指导教师:闫宏飞
2003年6月18日
摘要
随着WWW(World Wide Web)越来越广泛的发展与应用,搜索引擎已经成为人们从中查找信息的重要工具;在搜索引擎的系统实现中,如何通过链接提取发现更多更广的Web资源又是影响搜索引擎性能的重要因素之一。
本文总结了设计链接提取模块所要求的“容错性”、“正确性”、“全面性”、“高效性”和“可扩展性”等五个目标,并从这些角度去分析传统的链接提取方法的不足,并作为改进,提出了一种新的设计思路。
本文将链接提取的过程划分为信息提取,信息加工,信息分析以及信息储存四个过程来进行研究。信息的获取通过HTML文法分析方法从文档中得
原创力文档

文档评论(0)