清华大学校园网大数据平台建设分享.PDF

清华大学校园网大数据平台建设分享

清华大学校园网大数据平台 建设分享 2016年9月 主要内容 •  建设基础 •  建设目标 •  建设内容 •  建设方案 •  经费预算 •  执行计划 •  人员分工 •  预期成果 项目建设基础 :现状 •  校园网网络管理缺乏统一数据平台支撑 •  认证计费、HTTP、邮件、IPFIX、DNS、 DHCP、网络测量和SNMP流量统计数据等 日志分散、独立存放。 •  认证计费16万用户 ,每天12万条联网明细 •  邮件每天20G 日志 •  IPFIX每天160G日志 ,每分钟200万条 •  DNS每天20G 日志 ,4亿条 •  DHCP每天10G日志 •  HTTP每天300G日志(入出双向 ) •  校园网网络管理服务器和存储阵列问题 项目建设基础 :问题 •  网络管理面临的性能问题 •  需手工对多种日志进行检索查证。 •  网络管理面临的安全问题 •  需手工分析IPFIX 日志及其他日志 ,溯源。 •  网络管理面临的异常问题 •  需各部门负责人配合联合分析日志。 •  格式非标准化问题 •  日志量大 ,难于检索问题 •  日志保存期限问题 项目一期建设目标 •  建设统一的数据存储和备份平台 •  建设大数据处理平台 ,能够对不同来源的校 园网日志数据进行格式化和可SQL •  基于WEB的数据可视化系统 •  每天百亿条量级数据存储和分析 项目一期主要建设内容 •  建设大数据集群系统 •  基于HADOOP建设海量数据存储平台 •  将现网系统的LOG数据导入到大数据平台 •  将IPFIX/HTTP数据存储到大数据平台 •  建设数据可视化系统 建设方案 :总体建设思路 •  系统架构可靠、稳定、经济 •  系统模块化 ,可灵活扩展 •  系统平台化 ,可持续发展 建设方案 :体系结构 数 据 IPFIX DNS HTTP 源 二进制 / 文本 / 计 算 Hadoop集群 实时流数据 层 存 储 TEXT Parquet 层 查 询 数据中间层 / glider 层 产 网络行为分析 攻击溯源 开放API 品 建设方案 :集群建设 •  基于HDFS的数据存储 •  SQL on HADOOP 建设方案 :数据可视化 1.  定义取得数据的SQL语句 2.  定义取得数据的横坐标 3.  根据自定义的横坐标和取 得的数据绘图 4.  使用HTML5展示 建设方案 :自动化数据导入 •  文本数据 :可以直接将日志文件导入到HADOOP集群上。 •  IPFIX数据 :通过nfdump命令转化为文本格式后导入到 HADOOP集群上。 •  MYSQL数据 :通过MYSQL专用工具/脚本将数据库更新导 入到HADOOP集群上。 • 

文档评论(0)

1亿VIP精品文档

相关文档