网页正文提取系统的详细设计方案与实现毕业设计方案.docVIP

  • 3
  • 0
  • 约1.03万字
  • 约 23页
  • 2019-09-04 发布于江苏
  • 举报

网页正文提取系统的详细设计方案与实现毕业设计方案.doc

1 - 目录 TOC \o 1-3 \h \z \u 摘 要 - 3 - 1.绪论 - 4 - 1.1课题背景 - 4 - 1.1.1搜索引擎的历史 - 4 - 1.1.2搜索引擎的发展方向 - 5 - 1.1.3搜索引擎的最新技术发展 - 6 - 1.2课题来源、目的和意义 - 8 - 1.3 主要研究内容 - 9 - 2.网页正文提取系统的详细设计与实现 - 10 - 2.1 基本原理 - 10 - 2.2 网页预处理系统 - 11 - 2.2.1 HTML标签规范化 - 11 - 2.2.1 建立网页的DOM树结构 - 14 - 2.3 核心算法基本思想 - 15 - 2.4 本章小结 - 19 - 结 论 - 22 - 参考文献 - 23 - 摘 要 随着互联网信息技术的不断发展,互联网的信息量也日益膨胀。近年来,全球因特网上的信息数据正以爆炸式的速度在增长。据IDC报告称,从现在到2010年,预计信息量将以每年57%的速度增长,在2010年信息总量将达到988EB (1EB=10亿GB),约为2006年的6倍,相当于有史以来所有书籍数字信息量的1800万倍。面对如此巨大的互联网信息库,如何快速、有效、经济地检索到某个主题的所有相关信息就成了当前一个十分热门的研究课题。这时,搜索引擎的出现无疑给人们带来了极大的方便。然而,随着

文档评论(0)

1亿VIP精品文档

相关文档