基于SOA架构恶意爬虫DDoS攻击检测技术探究.docVIP

下载本文档

9
0
约2.6千字
约 5页
2017-06-10 发布于福建
举报
版权申诉

基于SOA架构恶意爬虫DDoS攻击检测技术探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于SOA架构恶意爬虫DDoS攻击检测技术探究

基于SOA架构恶意爬虫DDoS攻击检测技术探究　　摘要：面向服务的体系架构（SOA）作为一个全新的网络架构和组件模型，已经逐渐成为中国IT系统架构的主导思想。随着该体系首选的Web服务发展与普及应用，其安全问题日益突出，特别是DDoS（分布式拒绝服务攻击）因为其较易实施和难以防范的特点，日益成为当今网络安全领域面临的巨大威胁。本文主要针对近年来出现的利用搜索引擎爬虫技术来实施的DDoS攻击环境下，相应的检测防御技术研究关键词：SOA DDoS 爬虫技术检测技术中图分类号：TP393.08 文献标识码：A 文章编号：1007-9416（2016）10-0202-01 面向服务的体系架构（Service-Oriented Architecture， SOA）作为一个全新的网络架构和组件模型，在提供便利的同时也面临安全方面的挑战。SOA系统不但会受到传统的网络攻击，如重放攻击、注入攻击等，也会受到各种DDoS攻击。近日有研究表明，假冒搜索引擎爬虫已经成为第三大DDoS攻击工具。本文所介绍的基于SOA架构下的DDoS攻击检测方法主要针对当今比较流行的利用网络爬虫所发起的DDoS攻击 1 SOA安全问题研究 SOA是一个组件模型，它将应用程序的不同功能单元（即服务）通过这些服务之间定义良好的接口和契约联系起来。SOA目前在很大程度上还是比较依赖Web服务，特别是一些面向服务技术在SOA架构上的应用，导致SOA在提供了良好的便捷的同时也避免不了一些安全隐患。而目前来看SOA往往大多应用在企业级平台之上，它所承担的服务不再单纯的是一种技术能力，而更多的是一种业务能力和IT资产。因此研究SOA架构下安全问题，特别是安全检测技术，在风险到来之前提前预测、感知和及时响应具有十分重要的意义 2 网络爬虫技术 2.1 网络爬虫概述网络搜索引擎的主要数据来源就是互联网网页，通用搜索引擎的目?司褪蔷】赡艿奶岣咄?络覆盖率，网络爬虫（又称网页蜘蛛或者网络机器人），就是一种按照特定规则，自动抓取互联网信息的脚本或者程序。搜索引擎利用网络爬虫技术爬取Web网页、文件甚至图片、音视频等多媒体资源，通过相应的索引技术处理这些信息后提供给用户查询 2.2 网络爬虫的安全性问题网络爬虫策略就是尽可能多的抓取互联网中的高价值信息，所以爬虫程序会根据特定策略尽可能多的访问互联网上的网站页面，这毫无疑问会占用目标网站的网络带宽和Web服务器的处理开销，特别是一些小型网站，仅仅处理各种搜索引擎公司的爬虫引擎就会导致自身服务器“应接不暇”。所以黑客可以假冒爬虫程序对Web站点发动DDoS攻击，使网站服务器在大量爬虫程序的访问下，系统资源耗尽而不能及时响应正常用户的请求甚至彻底崩溃。不仅如此，黑客还可能利用网络爬虫抓取各种敏感资料用于不正当用途。比如遍历网站目录列表；搜索测试页面、手册文档、样本程序以查找可能存在的缺陷程序；搜索网站管理员登录页面；搜索互联网用户的个人资料等等 3 恶意爬虫DDoS攻击的防范和检测一般情况下，因为特定网站的特殊原因，比如有些网站不希望爬虫白天抓取网页，有些网站不希望爬虫抓取敏感信息等，所以爬虫程序默认是需要遵守Robots协议，所以限制爬虫最简单直接的方法就是设置robots.txt规则。然而并不是所有的搜索引擎爬虫都会遵守robots规则，所以仅仅设置robots是远远不够的 3.1 日志分析来检测恶意爬虫攻击（1）分析服务器日志统计访问最多的IP地址段 grep Processing production.log | awk {print $4}’ | awk -F’.’ ’{print $1〃.〃$2〃.〃$3〃.0〃} | sort | uniq -c | sort -r -n | head -n 200 stat_ip.log （2）把统计结果和流量统计系统记录的IP地址进行对比，排除真实用户访问IP，再排除正常的网页爬虫，如Google，百度，微软爬虫等。很容易得到可疑的IP地址。分析可疑ip 的请求时间、频率、refer头等，很容易检测是否网络爬虫，类似如图1所示日志信息明显是一个网络爬虫 3.2 基于访问行为特征检测爬虫DDoS 通过日志分析来检测恶意爬虫攻击，无法及时检测并屏蔽这些spider。所以面对分布式的爬虫DDoS攻击，网站很有可能无法访问，分析日志无法及时解决问题。针对恶意爬虫程序和正常用户访问之间的行为特征不同，爬虫DDoS程序为了达到占用系统资源的目的，其访问往往是频率很高而且呈明显规律性，明显区别于真实正常用户浏览访问时的低频率和随机性，所以基于统计数据或者其他应用识别或者IPS技术，可以较容易的生成正