中等规模海量数据处理实例分析.ppt

中等规模海量数据处理实例分析

中等规模海量数据处理实例分析 王斌 BI 组 2009-12-04 内容 项目简介 流程 演化过程 遇到的若干问题 支撑技术 总结 项目简介 本项目通过分析用户访问标题的log日志文件,提取出用户的喜好,进而为广告投放提供精准支持 此项目属于web使用挖掘的一个应用 项目简介 log数据 单日压缩文件约为10G,压缩比约为8 需要整合一个月的数据 总共约2T~3T数据 用户数量 约1.5亿 目前一个月活跃标题数量 约1400万,支持3000万标题数量 项目简介 硬件环境 4 CPU 4G内存 编程环境 c++ vim+ctags+cscope g++ gdb 流程 演化过程—项目开始前(2008.04) 动手做程序前,有过类似的经验,但所处理的数据量不大。 当时具备的知识如下: 诊断性能瓶颈 多线程技术 定长技术 二进制技术 抽取公共信息 缓存技术 双备份技术 有一定的数据结构和算法基础 演化过程—项目初期(2008.05) 目标:简单流程开发完毕,优化以后再做 遇到的主要问题: 计算所的开源词库错误百出 有道的词库软件因为版权问题不能用 演化过程—项目进展中(2008.06) 目标:做一些优化工作 遇到的问题: 计算所的开源词库性能非常差,百万标题需要一千秒 分词本身带来不少误差问题 内存碎片问题 探索: 利用kmp算法+trie树来解决关键词的提取 演化过程—项目进展中(20

文档评论(0)

1亿VIP精品文档

相关文档