基于决策树的钓鱼网页的识别方法.docVIP

下载本文档

5
0
约6.69千字
约 9页
2018-01-30 发布于湖北
举报
版权申诉

基于决策树的钓鱼网页的识别方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于决策树的钓鱼网页的识别方法　　摘要：现如今许多不法分子利用钓鱼网站盗取用户的个人信息，窃取用户的财产，对用户造成巨大损失。因此该文通过使用决策树学习算法，提取其中的关键词，分析并建立钓鱼网站特征模型，对未知网站进行判别。CART是一种决策树算法，但CART决策树的多数表决法会屏蔽小类数据类型的影响，因此该文根据这点对CART决策树进行改进，引入代价函数，不断地利用迭代和最小均方误差调整特征的权重增加惩罚。实验结果表明，改进后的决策树在对未知网站进行分析，成功地降低了负样本的错误率，提升了识别率。　　关键词：决策树；URL识别；最小均方误差；代价函数　　中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2017）33-0079-02 　　Abstract： Now many criminals use phishing sites to steal the users personal information， steal the users property， causing huge losses to the user. Therefore， this paper uses the decision tree learning algorithm to extract the keywords， analyze and establish the phishing website feature model， and judge the unknown website. CART is a decision tree algorithm， but the majority voting method of CART decision tree will shield the influence of small class data type. Therefore， this paper improves the CART decision tree according to this point， introduces the cost function， and makes use of iteration and minimum mean square error Adjust the weight of the feature to increase the penalty. The experimental results show that the improved decision tree has successfully reduced the error rate of negative samples and improved the recognition rate in the analysis of unknown websites. 　　Key words： decision tree； URL identification； least-mean-square； cost function 　　1 背景　　钓鱼网站通常是指伪装成合法网站，窃取用户提交的账号、密码等私密信息的网站。目前已出现10余种反钓鱼工具，本文选用决策树方法对钓鱼URL特征进行识别，国内外学者也提出了很多决策树的相关改进算法：　　ID3算法是1986年由Quinlan提出的，是基于信息增益的选择[1] 。J.Ma[2]等人分析可疑URL 的词汇和主机属性采用词袋模型表示特征，获得了成千上万的特征，运用特征匹配加上ID3算法?z测钓鱼网站。但ID3算法也存在缺陷，因为包含较多属性值的特征所含的信息增益一般会越高，所以ID3优先会选择有较多属性值的特征，从而构建的决策树往往不是最优的，只可以用于处理离散数据，不能用于处理连续数据。　　C4.5算法是Quinlan本人对ID3算法的改进[3]，引入了信息增益比（GainRatio）作为选择的准则。来自John Hopkins大学的Sujata与Google的研究员用URL特征做钓鱼模式识别进行了尝试[4]，运用改进后的c4.5算法，取得了很好的成果。但在决策树生成过程中，频繁的对训练的数据集排序和扫描，增加了算法的时间复杂度。　　2 CART决策树　　CART（Classification And Regression Tree）算法由L.Breiman，J.Friedman，R.Olshen和C.Stone于1984年提出[5]，即分类回归算法，简称CART算法，分类问题中含有K个类别，样本点属于第k类的概率为pk对于给定的样本集D 　　[Gini（D）=k=1γk′≠kpkpk′=1-k=1γp2k] （1）