基于校园网DNS日志数据的可视化分析.pptVIP

基于校园网DNS日志数据的可视化分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于校园网DNS日志数据的可视化分析 报告人:高 攀 导 师:王宗敏 教授 指导老师:陈刚 老师 主要内容 背景及研究现状 数据准备及特征提取 数据说明 算法选择 数据处理 数据可视化呈现 时间区间 特征对比 属性特征 图形维数 小结及后续工作 参考文献 背景及研究现状 DNS日志蕴含的信息及分析价值 记录了用户访问互联网所需的DNS解析记录 真实反映了用户的网络需求,对认知网络有重要价值和意义 数据可视化 利用人类视觉感知和形象化思维,将分析数据以图形化方式从不同角度呈现出来,快速直观地展示数据中所蕴含的特征信息 增强对数据的认知 挖掘数据内部所隐藏的规律 背景及研究现状(二) 研究现状 数据挖掘:提出对挖掘结果可视化 基于时间信息:时间墙模型,河流模型 基于GIS系统:地形数据,配电网数据,雷电数据 具体方法 对数据的多种特征属性从不同的角度进行可视化 探讨不同的数据特征提取手段和呈现方法 认识可视化对不同特征信息、数据类型和数据规模的适用规律 实现目标:归纳出系统的可视化方法 数据准备及特征提取 数据说明 流式数据:高速,连续不断,数据量大 行为记录 请求记录:时间戳、序列号、用户IP、请求解析的域名、请求分类 回答记录:时间戳、序列号、解析结果IP 数据规模 一天数据,500多个文件,大小3GB以上,请求记录3000万条以上 数据准备及特征提取(二) ——数据处理算法选择 主要特征信息是IP地址和域名地址,要统计在一定时间周期内的非重复IP数量和每个IP的请求行为累计次数、非重复域名地址数量和每个域名地址的被关注数据 IP地址,移位异或哈希算法 addr=(k[0] 24)+(k[1]16)+(k[2]8)+k[3],hash=(addr^(addr16))MASK,MASK=SIZE-1 空间216,时间2小时58分25秒,平均查找次数2344.27 空间217,时间1小时20分52秒,平均查找次数176.83 (44264个IP) 域名地址,旋转哈希算法 for(hash=strlen(str),i=0;istrlen(str);i++) hash=(hash4)^(hash28)^ord(str[i]); hash=(hash^(hash10)^(hash20))MASK; 空间221,时间2小时6分43秒,平均查找次数1.85 (668527个url) 数据准备及特征提取(三) ——数据处理 处理流程: 对原始日志数据,分别使用分钟、小时时间区间和日、周、月等不同的数据规模进行处理和可视化呈现 一天的数据,IP在10:00-10:10时间段的数量为6297,10:00-10:30的数量为8901,10:00-12:00的数量为15802,一天的数量为44254。 数据可视化呈现 时间区间 对一天、一周、一个月的数据规模,按每十分钟的时间周期进行可视化呈现。 对于IP活跃用户的规模,可以使用每个时间周期内的IP地址数量来表示;IP用户活跃程度用所有IP请求总次数和每个IP平均请求次数表示,用平均请求次数的标准差辅助分析。 数据可视化呈现(二) 特征对比 不同日期的数据在同一时间点的纵向对比 不同类别的数据在同一时间点的纵向对比 数据可视化呈现(三) 属性特征 特征维度可以是按时间轴对数量属性进行展示,也可以以散点表示IP地址是否有访问行为 散点表示IP地址,颜色表示活跃程度 数据可视化呈现(四) 图形维数 三维空间中,平面坐标表示IP地址,z轴表示IP的请求次数 小结及后续工作 小结 探索了从不同角度对数据进行特征提取 提供了数据多种属性的直观表现形式 帮助管理者迅速发现在海量数据中所隐藏的特征信息和规律 后续工作 进一步积累和丰富可视化的手段 图形转化成动态表现的视频 多维信息的关联 总结不同呈现方式的适用规律 归纳出系列化的可视化工具集合 参考文献 [1] 刘本仓.基于采样数据流挖掘的网络行为分析研究[D].西安:西安电子科技大学,2009. [2] 俞智君.基于流数据聚类的网络行为分析研究[D].哈尔滨:哈尔滨理工大学,2011. [3] 丁青,周留根,朱爱兵等.基于K-means聚类算法的校园网用户行为分析研究[J].微计算机应用,2010,31(6):74-80. [4] 邓莉琼,吴玲达,谢毓湘.基于时间信息的可视化表现方法研究[C].第三届和谐人机环境联合学术会议(HHME2007)论文集,2007,109-115. 参考文献(二) [5] 崔彬.数据挖掘中多维数据可视化的研究[D].武汉:武汉理工大学,2006. [6] 孙广宇,李海洋,赵向东等.地形数据的可视化研究[J].测绘与空间地理信息,2010,33(3):40-44. [7

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档