基于网页身份及行为的钓鱼网页特征向量提取方法.docVIP

下载本文档

3
0
约3.27千字
约 6页
2017-11-16 发布于河南
举报
版权申诉

基于网页身份及行为的钓鱼网页特征向量提取方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于网页身份及行为的钓鱼网页特征向量提取方法

基于网页身份及行为的钓鱼网页特征向量提取方法 The Method of Extracting the Phishing Web Features Vector Based On the Web Identity and Behavior 司响李秋锐2 宋士超2 （1.中国人民公安大学,北京100038）（2.中国人民公安大学,北京100038）（2.中国人民公安大学,北京100038）摘要：随着电子商务和在线交易的增加，网络钓鱼已经成为最严重的一种网络犯罪形式。本文从网页中包含的超链接这一角度出发，给出了网页的身份特征，并结合网页ICP号，版权所有者以及网页行为等对网页特征进行了提取，得到了钓鱼网页的特征向量，为及时准确检测钓鱼网页提供了依据。关键词：网页身份 ICP号版权所有者网页行为网页特征向量提取 Abstract：As the Electronic Commerce and On-line Trade expand, phishing has already become one of the severest forms of network crimes. In this paper, the identity features of webs are given based on the hyperlinks included in the webs, and then webfeatures are extracted employing ICP of webs, owner of the copyright, webbehaviors and so on. With the extraction of feature vectors of phishing webs, more evidences acquired render the detection of phishing webs with more accuracy and shorter time-consumption. Keywords：web identity ICP number Copyright owner Web behavior Web feature vector extraction 1前言网络钓鱼是一种企图从电子通信中，通过伪装成信誉卓著的法人媒体以获知如用户名、密码和信用卡明细等个人敏感信息的犯罪诈骗过程。随着互联网交易的兴起，网络钓鱼已经成为最为严重的互联网犯罪形式之一。据中国反钓鱼网站联盟的报告，截至2011年3月底，联盟累计认定并处理了钓鱼网站43842个。其中在3月份，联盟认定并处理钓鱼网站3988个，同比增长271%，环比增长244%[1]。每一个网页都有一定的身份，网页的行为必然和网页的身份相一致。然而，为了模拟合法网页迷惑用户，钓鱼网页必然会将身份伪造为合法网站的身份。从另一个方面讲，钓鱼网页的目的与合法网页并不相同，因此其行为就会和正常合法网页不同，会与声称的身份不符，存在异常。这种行为上的异常正是区分钓鱼网页和合法网页的基础。本文从网页中的超链接这一角度出发，提取出网页的身份，并结合网页ICP号，网页版权所有者及网页的行为，对钓鱼网页的特征进行了分析。最终以定量的方式，引入了钓鱼网页特征向量VP=F1,F2,F3,F4,F5,F6,F7,F8,F9,来表示钓鱼网页特征，为准确判定钓鱼网页提供了依据[3][4]。 2算法流程对于一个给定的网页P，为了提取其身份和特征向量，首先要通过解析得到网页P的DOM（Document Object Model）树，以使后续数据处理过程更加简单。根据W3C的标准，DOM是一种与浏览器，平台，和语言的接口，解决了语言之间的冲突，提供了一个标准的方法来访问站点中的数据，脚本和表现层对象。假设以下为一个网上银行提交用户名和密码的Html代码的body部分head title网银系统/title meta name=“Description”content=“全面的银行金融服务介绍，丰富的投资理财信息，方便快捷的在线交易”/ head body table form action=“a.jsp” td用户名：/td tdinput type=“text” name=“username” /td td密码：/td tdinput type=“password” name=“password”/td tdinput type=“submit” value=“登录” input type=“reset” value=“取消”/td /form ……………… ……………… a herf=“b.jsp”链接B/a /table /body h