基于DNS日志分析的用户在线检测算法与应用.pptVIP

  • 1
  • 0
  • 约2.85千字
  • 约 15页
  • 2019-10-23 发布于天津
  • 举报

基于DNS日志分析的用户在线检测算法与应用.ppt

基于DNS日志分析的用户在线检测算法与应用 清华大学 常得量 chdlgs@ 目录 问题背景 现有方法概述 基于DNS方法的特点 算法描述 算法验证 讨论与应用 总结和未来工作 参考文献 问题背景 不同的研究[1-4]从不同的角度测量用户在线的行为特征。这些研究都涉及了一个问题:如何判断设备或用户到达、离开网络的时间,如何识别用户或设备的在线状态。 了解设备的在线状态,了解用户的网络特征,被广泛使用在网络管理、网络建模、模拟上。对于网络管理者、研究者和开发者来说都有十分重要的意义。 在大规模网络中,如何通用地测量大量网络设备的基本信息? 现有方法 基于认证系统:使用用户认证方法来确定用户在线规模。只有在要求认证的环境下才有效,适用范围不广。同时会有隐私问题。 基于DHCP:使用DHCP租约系统当作设备在线系统。不适用于静态IP,无法准确判断设备离线时间,同时有IPv6迁移问题。 基于各类数据采集:必须拥有网关处的管理权限。这对于一些网络研究者比较困难。 其他方法:网络游戏服务器端数据采集[4]、基于基站数据的方法[5]等等。限制太多,不能为日常的网络研究和管理提供太多帮助。 Why DNS log analysis? 通用性:DNS是网络的基础设施,被几乎所有网络服务所应用。同时,使用DNS的方法也没有IPv6迁移问题。 方便部署:基于DNS日志分析,不需要更改现有网络或增设大量的测量节点。方便增量部署。 约束更小:基于DNS的方法不需要拥有网关的管理权限。只需要设备使用提供的DNS服务即可。 适用于大规模网络:DNS日志数据量小,处理起来方便快捷。 在线检测算法描述 基于时间间隔的模型 当相邻的DNS请求时间间隔小于T时,则视作从同一个设备发出,之前设备仍然在线。反之,如果相邻请求间隔大于T,则视作设备下线。 算法的验证(1) 依据DHCP日志记载的设备“切换”信息作为真实值,来检测用户上下线的时间判断是否准确。 使用精确率(precision rate)、召回率(recall rate)和F1-score来评价效果。 在阈值T较小时,召回率保持在一个很高的水准,而精确率上升很快。这是因为在DNS分割策略激进的情况下,DHCP的判定结果被很好的概括了,但是却出现了大量的误分段现象。 DNS用户在线检测算法效果PR曲线 算法的验证(2) 随着T变大,精确率一直在升高。而召回率出现了缓慢的下降,意味着时间阈值T可能开始接近并超过IP释放的时间。 在判断阈值T=40分钟时,精确率和召回率都达到最优。约为90%。 清洗DHCP数据标定,消除以下的情况,最终召回率最终能达到96.3%。 设备拿到IP地址后未继续使用网络。 设备未使用DHCP提供的DNS服务,因而未被DNS日志记录。 DNS用户在线检测算法效果PR曲线 无线网的时域信息 右图的数据采集自是2014年11月某日(星期三)凌晨4:00至第二天凌晨4:00的无线网络。 红色点线是1min内新加入用户的数量,使用左边的纵轴;蓝色实线是用户的在线数量,使用右边的纵轴。 无线网络的时域分析非常明显地显示出了清华大学校园生活的特点。 上课时人数增加,下课后减少。 夜间、午饭和晚饭是大的低谷,课间是小的低谷。 无线网络还未覆盖食堂。 用户不喜欢在吃饭时间上网。 有线和无线网络的对比 右图的数据采集同样时段的校园有线网络。 有线网络和无线网络显著不同。 总体来说,也是日间用户多,夜间用户少。但有线网络整体而言更平缓。 由于有大量彻夜不关的设备,有线网夜间的用户数量远多于无线网。 有线网用户的每分钟加入数量显著得更低,变化频率也更小。 早晨6:00,有一个用户加入的高峰。这是由于送电瞬间,很多设备(如NAT路由)会访问网络。这一现象在无线网络中不会出现。 工作日和周末的对比 右图的数据采集自2014年11月的一个星期日的校园无线网络。 周末网络情况也和工作日有所不同。 总体来说,峰谷值类似工作日的无线网络。 用户的数量和活跃程度都减少了。可能是因为周末在无线网覆盖地区的人数变少。 不再有明显的跟课程教学相关的变化,而是和城市其他的工作区域的特征较为相似[5]。 总结 提出了一种基于被动DNS分析的用户/设备在线检测手段,可以识别设备到达和离开网络的时刻,判断设备的在线状态。达到90.6%的精确率和96.3%的召回率。 从时域给出了清华大学校园网络的在线和设备到达情况进行了测量。 从无线有线网的对比和工作日和周末的对比等方面,分别对网络状况进行了分析,以期对网络管理提出帮助。 进一步工作 分析用户的其他行为特征,以便于更好地了解用户和网络。比如: 操作系统 使用行为习惯 设计异常检测算法,应用统计信息分析网络异常。 实时性检测,便于日常网络管理的使用。 参考文献 [1] Kotz D,

文档评论(0)

1亿VIP精品文档

相关文档