- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SOA架构恶意爬虫DDoS攻击检测技术探究
基于SOA架构恶意爬虫DDoS攻击检测技术探究 摘要: 面向服务的体系架构(SOA)作为一个全新的网络架构和组件模型,已经逐渐成为中国IT系统架构的主导思想。随着该体系首选的Web服务发展与普及应用,其安全问题日益突出,特别是DDoS(分布式拒绝服务攻击)因为其较易实施和难以防范的特点,日益成为当今网络安全领域面临的巨大威胁。本文主要针对近年来出现的利用搜索引擎爬虫技术来实施的DDoS攻击环境下,相应的检测防御技术研究
关键词:SOA DDoS 爬虫技术 检测技术
中图分类号:TP393.08 文献标识码:A 文章编号:1007-9416(2016)10-0202-01
面向服务的体系架构(Service-Oriented Architecture, SOA)作为一个全新的网络架构和组件模型,在提供便利的同时也面临安全方面的挑战。SOA系统不但会受到传统的网络攻击,如重放攻击、注入攻击等,也会受到各种DDoS攻击。近日有研究表明,假冒搜索引擎爬虫已经成为第三大DDoS攻击工具。本文所介绍的基于SOA架构下的DDoS攻击检测方法主要针对当今比较流行的利用网络爬虫所发起的DDoS攻击
1 SOA安全问题研究
SOA是一个组件模型,它将应用程序的不同功能单元(即服务)通过这些服务之间定义良好的接口和契约联系起来。SOA目前在很大程度上还是比较依赖Web服务,特别是一些面向服务技术在SOA架构上的应用,导致SOA在提供了良好的便捷的同时也避免不了一些安全隐患。而目前来看SOA往往大多应用在企业级平台之上,它所承担的服务不再单纯的是一种技术能力,而更多的是一种业务能力和IT资产。因此研究SOA架构下安全问题,特别是安全检测技术,在风险到来之前提前预测、感知和及时响应具有十分重要的意义
2 网络爬虫技术
2.1 网络爬虫概述
网络搜索引擎的主要数据来源就是互联网网页,通用搜索引擎的目?司褪蔷】赡艿奶岣咄?络覆盖率,网络爬虫(又称网页蜘蛛或者网络机器人),就是一种按照特定规则,自动抓取互联网信息的脚本或者程序。 搜索引擎利用网络爬虫技术爬取Web网页、文件甚至图片、音视频等多媒体资源,通过相应的索引技术处理这些信息后提供给用户查询
2.2 网络爬虫的安全性问题
网络爬虫策略就是尽可能多的抓取互联网中的高价值信息,所以爬虫程序会根据特定策略尽可能多的访问互联网上的网站页面,这毫无疑问会占用目标网站的网络带宽和Web服务器的处理开销,特别是一些小型网站,仅仅处理各种搜索引擎公司的爬虫引擎就会导致自身服务器“应接不暇”。所以黑客可以假冒爬虫程序对Web站点发动DDoS攻击,使网站服务器在大量爬虫程序的访问下,系统资源耗尽而不能及时响应正常用户的请求甚至彻底崩溃。不仅如此,黑客还可能利用网络爬虫抓取各种敏感资料用于不正当用途。比如遍历网站目录列表;搜索测试页面、手册文档、样本程序以查找可能存在的缺陷程序;搜索网站管理员登录页面;搜索互联网用户的个人资料等等
3 恶意爬虫DDoS攻击的防范和检测
一般情况下,因为特定网站的特殊原因,比如有些网站不希望爬虫白天抓取网页,有些网站不希望爬虫抓取敏感信息等,所以爬虫程序默认是需要遵守Robots协议,所以限制爬虫最简单直接的方法就是设置robots.txt规则。然而并不是所有的搜索引擎爬虫都会遵守robots规则,所以仅仅设置robots是远远不够的
3.1 日志分析来检测恶意爬虫攻击
(1)分析服务器日志统计访问最多的IP地址段
grep Processing production.log | awk {print $4}’ | awk -F’.’ ’{print $1〃.〃$2〃.〃$3〃.0〃} | sort | uniq -c | sort -r -n | head -n 200 stat_ip.log
(2)把统计结果和流量统计系统记录的IP地址进行对比,排除真实用户访问IP,再排除正常的网页爬虫,如Google,百度,微软爬虫等。很容易得到可疑的IP地址。分析可疑ip 的请求时间、频率、refer头等,很容易检测是否网络爬虫,类似如图1所示日志信息明显是一个网络爬虫
3.2 基于访问行为特征检测爬虫DDoS
通过日志分析来检测恶意爬虫攻击,无法及时检测并屏蔽这些spider。所以面对分布式的爬虫DDoS攻击,网站很有可能无法访问,分析日志无法及时解决问题。针对恶意爬虫程序和正常用户访问之间的行为特征不同,爬虫DDoS程序为了达到占用系统资源的目的,其访问往往是频率很高而且呈明显规律性,明显区别于真实正常用户浏览访问时的低频率和随机性,所以基于统计数据或者其他应用识别或者IPS技术,可以较容易的生成正
文档评论(0)