- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于爬虫的网络安全问题探讨
摘要:随着新一代网络信息技术的应用和服务越来越多,网络信息安全事件频繁爆发,网络攻击、病毒入侵、信息泄密等事件层出不穷。目前,大部分小型网站对于网络安全重视不足,网络安全风险意识比较薄弱,易引发一系列问题。通过一个简单的网络爬虫案例测试某小型网站的安全性,通过网络爬虫技术分析、查找网络安全问题的原因,并就防范网络爬虫提出了一系列安全策略,提高网络风险意识。
关键词:网络爬虫;网络安全;安全策略
1关于网络爬虫概念与“爬取”过程
网络爬虫(WebSpider)又称“网络蜘蛛”,它能模拟正常用户的一些行为,按照一定的规则自动抓取网络中的各种信息。搜索引擎也是网络爬虫的一种,但是不影响网站的正常运行,也没有任何恶意行为。而一些恶意的网络爬虫常常通过短时间内大量访问等手段来消耗网络资源,使网站的正常运转出现问题,导致服务器崩溃等。大部分爬虫程序通过预先设定一个队列存放URL,在进行网页爬取时,先从某一个或若干个URL开始,记录该URL,再从该网页上查找链接的其他URL放入队列,不断地从当前页面查找新的URL,如此循环往复,直到满足设定的停止条件。
2网络爬虫爬取某网站的案例与简单分析
2.1预判某网站安全技术措施。现在很多网站在一定程度上做了一些安全防护,但是由于成本以及技术原因等,大部分小型网站的网络安全策略比较薄弱,以一个爬虫案例来测试一下某网站网络安全问题。首先找到一个某诗词网站上的内容,查看PC网站请求地址,=发现不同的页面只是p=xx不同,xx=当前页面值,当p”+els.get(j).getElementsBy-Tag(“a”).get(1).ownText();contentListo.add(temp);}for(intp=1;p”+author+”《”+shiName+”》”);}for(inti=0;i黄庭坚《寄黄几复》一生大笑能几回,斗酒相逢须醉倒。岑参《凉州馆中与诸判官夜集》在本案例中,网站只做了客户端的拦截,翻页超过30页就提示错误页面,但是对于服务端接口没有做流量访问控制、身份(如Ip、浏览器特征)验证,所以当通过抓包拿到请求接口后可以随意请求获得想要的数据。对于隐私性不强的网站可能并没有特别重要的信息泄露,但对于涉及个人隐私等安全信息的网站,如果能随意抓取数据,将会有很大的安全隐患。用不同的方式又测试了其他几个网站,发现大部分网站虽然都做了一些网络安全防护,但都做的比较简单,对于信息安全的保护远远不够。
3基于爬虫的网络安全风险及防范
3.1网络安全风险。网络安全做的不到位会有很多风险,例如,某个网站上有一个10MB的文件,使用爬虫抓取该文件1000次,就会使网站产生大量出站流量,可能会使服务器瘫痪无法正常访问。恶意爬虫入侵的几种方式:(1)通过测试网站或后门调试程序入侵。目前,大多数基于网页服务的系统都附带了测试页面及调试用后门程序等,有些可以通过这些页面或程序不经过正常的认证直接访问服务器端的敏感数据,一旦这些敏感数据被有心人利用,可能会成为进行网络分析与攻击的源头,出现各种安全问题。(2)通过管理接口入侵。为了方便管理,很多网络平台及系统都提供了基于网页的管理接口,允许管理员对其进行远程管理与控制。网络恶意爬虫程序通过搜索管理员登录页面获得URL,而进行一系列的网络爬取或攻击,网络安全得不到保护。(3)通过网页直接搜索入侵。恶意网络爬虫程序直接通过互联网搜索用户的个人资料,例如用户的姓名、电话、微信号、身份证号等个人隐私,恶意用户获取后有可能实施攻击或诈骗。恶意网络爬虫极易对网络造成攻击,所以必须采取一定的手段来限制网络爬虫的访问权限,一方面开放需要搜索引擎收录的页面,同时又对一些敏感页面进行保护。3.2限制网络爬虫的基本技巧。3.2.1对于程序本身的反爬策略。大部分的爬虫程序是对网站页面的源文件进行爬取,如爬取静态页面的html代码,对于动态的很难爬取。了解了爬虫的原理,可以通过仿写html,让网站程序本身穿上“防爬外衣”进行伪装。比如可以用其他技术去模仿写html,这样爬虫就很难抓取到信息。类似这样的技术还很多,就不一一举例。3.2.2对于数据包字段的反爬策略。HTTP请求中的UserAgent字段能够识别客户使用的浏览器、引擎、操作系统、设备信息等。而爬虫的UserAgent字段有它自己的特征,如百度搜索引擎爬虫会有类似Baiduspider的字符串,Mozilla/5.0(compati-ble;Baiduspider/2.0;+/search/spider.html))。通过对UserAgent特定字符的限制可以阻止此类爬虫对网站的过度抓取。3.2.3对于用户行为的反爬策略。爬虫毕
您可能关注的文档
最近下载
- 2023年中国人民大学信息管理与信息系统专业《数据结构与算法》科目期末试卷A(有答案).docx VIP
- 2025年一级建造师公路桥梁上部结构装配与架设专题模拟试卷及解析.pdf VIP
- 面向领域适配任务的样本重要性重加权迁移学习算法体系分析.pdf VIP
- 2025年通信工程师DCCP协议拥塞控制机制专题试卷及解析-判断题.pdf VIP
- 多源异构医学数据库融合下的知识图谱构建数据标准与接口协议研究.pdf VIP
- 分层式联邦学习框架在复杂图像分割任务中的结构优化与协议演化.pdf VIP
- 联邦分布式图学习在黑产风险识别系统中的模型构建方案.pdf VIP
- 面向短视频平台的多模态内容分析与语义理解算法深度研究.pdf VIP
- 战略协议合作框架协议(通用10).pptx VIP
- 2025年招标师投标保证金与履约保证金管理的廉政风险点专题试卷及解析.pdf VIP
我们是专业写作机构,多年写作经验,专业代写撰写文章、演讲稿、文稿、文案、申请书、简历、协议、ppt、汇报、报告、方案、策划、征文、心得、工作总结代写代改写作服务。可行性研究报告,实施方案,商业计划书,社会稳定风险评估报告,社会稳定风险分析报告,成果鉴定,项目建议书,申请报告,技术报告,初步设计评估报告,可行性研究评估报告,资金申请报告,实施方案评估报告
原创力文档


文档评论(0)