清华大学校园网大数据平台建设分享
清华大学校园网大数据平台
建设分享
2016年9月
主要内容
• 建设基础
• 建设目标
• 建设内容
• 建设方案
• 经费预算
• 执行计划
• 人员分工
• 预期成果
项目建设基础 :现状
• 校园网网络管理缺乏统一数据平台支撑
• 认证计费、HTTP、邮件、IPFIX、DNS、
DHCP、网络测量和SNMP流量统计数据等
日志分散、独立存放。
• 认证计费16万用户 ,每天12万条联网明细
• 邮件每天20G 日志
• IPFIX每天160G日志 ,每分钟200万条
• DNS每天20G 日志 ,4亿条
• DHCP每天10G日志
• HTTP每天300G日志(入出双向 )
• 校园网网络管理服务器和存储阵列问题
项目建设基础 :问题
• 网络管理面临的性能问题
• 需手工对多种日志进行检索查证。
• 网络管理面临的安全问题
• 需手工分析IPFIX 日志及其他日志 ,溯源。
• 网络管理面临的异常问题
• 需各部门负责人配合联合分析日志。
• 格式非标准化问题
• 日志量大 ,难于检索问题
• 日志保存期限问题
项目一期建设目标
• 建设统一的数据存储和备份平台
• 建设大数据处理平台 ,能够对不同来源的校
园网日志数据进行格式化和可SQL
• 基于WEB的数据可视化系统
• 每天百亿条量级数据存储和分析
项目一期主要建设内容
• 建设大数据集群系统
• 基于HADOOP建设海量数据存储平台
• 将现网系统的LOG数据导入到大数据平台
• 将IPFIX/HTTP数据存储到大数据平台
• 建设数据可视化系统
建设方案 :总体建设思路
• 系统架构可靠、稳定、经济
• 系统模块化 ,可灵活扩展
• 系统平台化 ,可持续发展
建设方案 :体系结构
数
据 IPFIX DNS HTTP
源
二进制 / 文本 /
计
算 Hadoop集群 实时流数据
层
存
储 TEXT Parquet
层
查
询 数据中间层 / glider
层
产 网络行为分析 攻击溯源 开放API
品
建设方案 :集群建设
• 基于HDFS的数据存储
• SQL on HADOOP
建设方案 :数据可视化
1. 定义取得数据的SQL语句
2. 定义取得数据的横坐标
3. 根据自定义的横坐标和取
得的数据绘图
4. 使用HTML5展示
建设方案 :自动化数据导入
• 文本数据 :可以直接将日志文件导入到HADOOP集群上。
• IPFIX数据 :通过nfdump命令转化为文本格式后导入到
HADOOP集群上。
• MYSQL数据 :通过MYSQL专用工具/脚本将数据库更新导
入到HADOOP集群上。
•
您可能关注的文档
- 沃销APP营销工具介绍.PDF
- 沙拉类的介绍与实作.PPT
- 沥青与集料黏附性评价方法-长安大学学报.PDF
- 沙林杰作品中主角人物的心路历程.PDF
- 沈复物外之趣初探.PDF
- 河北医院等级评审管理办法.DOC
- 河南夏玉米生产水足迹区域差异-生态学杂志.PDF
- 油气集输课程设计指导书-网络教学平台-武汉理工大学.DOC
- 油气是关系国计民生的战略性紧缺资源油气的增储上产是我国的战略.PDF
- 法学理论专业导师-河北经贸大学法学院.DOC
- 03-2 2025年度民主生活会征求意见座谈会主持词.docx
- 03-1 2025年度民主生活会主持讲话提纲.docx
- 02-1 会前学习-《县以上党和国家机关党员领导干部民主生活会若干规定》相关要求.docx
- 在2025年度民主生活会上的总结讲话三篇.docx
- 在2025年度民主生活会上的总结讲话三篇 (3).docx
- 市委宣传部2025年度民主生活会查摆问题整改方案两篇.docx
- 在市行政审批和政务信息管理局机关2026年全体干部政绩观教育大会上的党课讲稿.docx
- X市应急管理局2026年度安全生产监督检查计划.docx
- 2025年度民主生活会领导班子对照检查材料(五个带头)三篇.docx
- 2025年度民主生活会“五个带头”个人对照检查材料三篇.docx
原创力文档

文档评论(0)