网页数据分布式存储与压缩优化.ppt

网页数据分布式存储与压缩优化

网页数据分布式存储与压缩优化 答辩人: 曾菊儒 学术导师: 陆嘉恒 教授 企业导师: 夏天 副教授 专 业: 软件工程 2014/05/20 研究背景 1 2 相关工作 总结与展望 3 4 目 录 系统实现 Key Laboratory of Data Engineering and Knowledge Engineering DEKE 研究背景 大数据时代的到来 chap1 系统在实际当中的应用 chap2 杂乱无章 结构清晰 商业决策 政府政策 舆情分析 Key Laboratory of Data Engineering and Knowledge Engineering DEKE 相关工作 Web信息博物馆 1 时光倒流机 2 Readability/Ex-tract 3 存储平台 抓取频度 使用语言 抓取频度 对”#”和shtml 非GBK和准确率 Key Laboratory of Data Engineering and Knowledge Engineering DEKE 依靠正文去重示例 旧页面 1 新页面 2 网页去重模型设计 原始判重模型 改进后的判重模型 测试与结果 抓取时间 判重方案 第1次 抓取数 第2次 抓取数 重复

文档评论(0)

1亿VIP精品文档

相关文档