基于K―Means和SVM流行中文钓鱼网站识别研究.docVIP

基于K―Means和SVM流行中文钓鱼网站识别研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于K―Means和SVM流行中文钓鱼网站识别研究

基于K―Means和SVM流行中文钓鱼网站识别研究   摘要:K-Means是一种简单、高效的聚类方法,能快速将网页文本分类。SVM在解决小样本、非线性及高维模式识别中有许多独特优势,能够通过低样本获取全局最优解。因此,将K-Means和SVM结合,以达到自动识别流行中文钓鱼网站并对其进行分类的目的。验证了两种方法结合应用的有效性。   关键词关键词:K-Means算法;钓鱼网站;SVM;分类   中图分类号:TP309 文献标识码:A 文章编号:1672-7800(2016)004-0176-03   0引言   电子商务飞速发展,网络交易在生活中占据了重要地位。与此同时,网络犯罪也日益猖獗,各种木马病毒、钓鱼网站层出不穷,对公民财产造成了严重侵害。据中央电视台报道,2013年我国网民在钓鱼网站遭受的经济损失达300亿元,并且近年呈快速增长趋势。传统的杀毒软件是根据举报,人工将网络链接加入黑名单,这种方法效率很低,很难遏制网络犯罪快速发展趋势。因此,对钓鱼网站识别的研究成为研究热点。目前,对钓鱼网站识别方法的研究有:   (1)基于URL黑名单匹配识别方法。此种方法的缺点是具有滞后性,识别率低,只能进行一对一匹配,同时入库效率太低。   (2)基于URL地址分析的识别方法。此种方法在钓鱼技术发展初期效果不错,可是随着技术的发展,越来越多的钓鱼网站在URL上的相似度越来越低,甚至完全没有特征,因此此种方法也逐渐失去效果。   (3)基于网页视觉特征的钓鱼网站识别。此种方法需要生成目标网站的图像信息,然后与目标特征库比对[1-4]。这种方法效率低,同时很多钓鱼网站没有模仿某一类知名网站,导致特征库的提取存在困难。   对此,提出一种SVM和K-Means相结合的钓鱼网站识别方法。因为不同类型的钓鱼网站具有不同特征,如果只使用一种通用的特征值来识别计算,会降低识别率。   K-Means的优点是快速,可以快速对目标网站分类,明确属于哪一类型网站,针对该类型网站所具有的特征使用SVM识别。这样可降低单独使用SVM算法进行通用模板计算所带来的误判。   1网页文本提取及向量建立   网页与网页之间的相似性体现在网页内容上。钓鱼网页通过仿冒正规网站的布局和文本内容,达到以假乱真并骗取受害人的信任,这恰好可以作为对其进行正确分类的主要特征。因此,将网页进行分类前先提取网页有效内容,然后进行分词、去除停用词和向量化表示的处理。向量化表示是进行分类的必要前提,表示时使用的是词语的TF-IDF值,将分好的词作为向量的维,所有有效词组组合在一起。   TF=每一单词数量网页中出现次数最多的词语数量(1)(1)   IDF=log所有网页总数量含有这一词语的网页数+1(2)   TF-IDF=TF*IDF(3)   2网页聚类   网页聚类通过提取网页词语特征后使用K-Means算法对其进行聚类[5-6]。   2.1相似度计算   网页之间的相似度通过余弦相似度表示,其原理是将两个网页想象成空间中的两条有向线段,都是从原点(0,0)开始,指向不同的方向。两条有向线段以原点作为顶点形成一个夹角。如果夹角大小为0,意味着线段指向同一个方向;如果夹角大小为90度,则两条线段垂直,意味着完全不同;如果夹角大小为180度,意味着正好指向不同的方向。因此,在对网页进行聚类时,可以通过计算两个网页向量夹角的大小来判断相似程度。夹角越小,就代表两个网页越相似。余弦值越接近1,就表明夹角越接近0度,也就是两个网页向量越相似,这就是余弦相似性。   D(S,C)=s1*c1+s2*c2+...+sn*cns21+...+s2nc21+...+c2n(4)   2.2K-Means聚类   K-Means算法简单快速,能够快速通过多次迭代将测试样本分为多个类别,具体步骤为:①选取K个指定样本作为初始聚类中心;②计算每个训练样本与聚类中心的距离,然后选取距离最小的作为其新类别;③重新计算新的聚类中心;④重复执行步骤②、③直到稳定;⑤计算每个簇中样本与簇中心最大距离作为阈值。   3SVM算法   支持向量机SVM(SupportVectorMachine)是由Vapnik和Cortes于1995年提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有优势。SVM基于VC维理论和结构风险最小原理,根据有限的样本信息,在学习精度和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力[8]。钓鱼网站具有特殊的仿冒特性,因此可以根据特征权值进行分析[7],分辨是否为钓鱼网站。   3.1SVM原理   在进行二分类时,支持向量机使用公式(5)解决了图1所示的二次优化问题。   minw2+

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档