- 122
- 0
- 约29.44万字
- 约 569页
- 2019-03-27 发布于江西
- 举报
大数据技术丛书
大数据架构商业之路:从业务需求到技术方案
目录
推荐序一
推荐序二
前言
第1章 抉择
第2章 数据收集
2.1 互联网数据收集
2.1.1 网络爬虫
2.1.2 Apache Nutch简介
2.1.3 Heritrix简介
2.2 内部数据收集
2.2.1 Apache Flum e简介
2.2.2 Facebook Scribe和Logstash
2.3 本章心得
2.4 参考资料
第3章 数据存储
3.1 持久化存储
3.1.1 Hadoop和HDFS
3.1.2 HBase简介
3.1.3 MongoDB
3.2 非持久化存储
3.2.1 缓存和散列
3.2.2 Mem cached和Berkeley DB简介
3.2.3 Redis简介
3.3 本章心得
3.4 参考资料
第4章 数据处理
4.1 离线批量处理
4.1.1 Hadoop 的MapReduce
4.1.2 Spark简介
4.1.3 Hive简介
4.1.4 Pig、Im pala和Spark SQL
4.2 提升及时性:消息机制
4.2.1 ActiveMQ简介
4.2.2 Kafka简介
4.3 在线实时处理
4.3.1 Storm 简介
4.3.2 Spark Stream ing简介
4.4 本章心得
4.5 参考资料
第5章 信息检索
5.1 基本理念
5.2 相关性
5.2.1 布尔模型
5.2.2 基于排序的布尔模型
5.2.3 向量空间模型
5.2.4 语言模型
5.3 及时性
5.4 与数据库查询的对比
5.5 搜索引擎
5.5.1 Web搜索中的链接分析
5.5.2 电子商务中的商品排序
5.5.3 多因素和基于学习的排序
5.5.4 系统框架
5.5.5 Lucene简介
5.5.6 Solr 简介
5.5.7 Elasticsearch简介
5.6 推荐系统
5.6.1 推荐的核心要素
5.6.2 推荐系统的分类
5.6.3 混合模型
5.6.4 系统架构
5.6.5 Mahout
5.7 在线广告
5.7.1 在线广告的类型
5.7.2 广告投放机制
5.7.3 广告的拍卖机制
5.7.4 广告系统架构
5.8 本章心得
5.9 参考资料
第6章 数据挖掘
6.1 基本理念
6.2 数据的表示和预处理
6.2.1 数据的表示
6.2.2 数据的预处理
6.3 机器学习算法
6.3.1 监督学习——分类
6.3.2 监督学习—— 回归
6.3.3 非监督学习—— 聚类
6.4 挖掘工具
6.4.1 Mahout简介
6.4.2 R简介
6.5 本章心得
6.6 参考资料
第7章 效能评估
7.1 效果评估
7.1.1 离线评估
7.1.2 非离线的评估
7.2 性能评估
7.2.1 计算复杂度
7.2.2 应用系统性能
7.2.3 JMeter 工具
7.3 本章心得
7.4 参考
您可能关注的文档
最近下载
- 《毛选》读后感打印版.pdf VIP
- 自动水平缠绕机装置设计--毕业论文设计.doc VIP
- 南京医科大学《马哲》1中国马克思主义与当代3.ppt VIP
- 2024年新教科版五年级下册科学全册精编知识点(超全).doc VIP
- 2023机电工程装配式支吊架安装及验收规程.docx VIP
- 课件:直升机基本维护擦洗和润滑保养工作课件讲解.pptx VIP
- 新材料科学与技术产业领域研究与应用的合作模式与合作机制.pptx VIP
- 2025年新洋丰肥业万新型复合肥陶赖昭工业园化工业园新洋丰环评报告.docx VIP
- 肾盂输尿管连接部梗阻护理常规及健康教育.docx VIP
- 2025年安全工器具管理规定.docx VIP
原创力文档

文档评论(0)