海量网页的搜集、存储与处理.PDFVIP

  • 6
  • 0
  • 约 59页
  • 2017-08-15 发布于上海
  • 举报
海量网页的搜集、存储与处理

引言 网页的增量搜集 网页数据的存储 有价值网页的筛选 网页的消重 . 海量网页的搜集、存储与处理 . ——WebInfoMall及相关技术介绍 . . .. . 黄连恩 . . . . . . 黄连恩 引言 网页的增量搜集 关于WebInfoMall 网页数据的存储 相关工作 有价值网页的筛选 海量网页数据的几个重要特征 网页的消重 关于WebInfoMall .. 网页具有易于消逝的特性 在过去的二十年间,数不清的网页消失了 “一分为二,去一添三”的规律 它是当今人类文明的一个重要载体 它是巨大的知识宝库,是人类智慧的结晶 . . . . . . 黄连恩 引言 网页的增量搜集 关于WebInfoMall 网页数据的存储 相关工作 有价值网页的筛选 海量网页数据的几个重要特征 网页的消重 WebInfoMall的任务 .. 搜集并保存中国互联网的网页 为科研人员提供研究数据集 提供历史网页的再访问 可再现,可检索 提取出有价值的网页 进行分析、挖掘,文本计算 支撑社会科学领域的研究 . . . . . . 黄连恩 引言

文档评论(0)

1亿VIP精品文档

相关文档