基于K―Means和SVM流行中文钓鱼网站识别研究.docVIP

下载本文档

14
0
约3.32千字
约 8页
2018-08-28 发布于福建
举报
版权申诉

基于K―Means和SVM流行中文钓鱼网站识别研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于K―Means和SVM流行中文钓鱼网站识别研究

基于K―Means和SVM流行中文钓鱼网站识别研究　　摘要：K-Means是一种简单、高效的聚类方法，能快速将网页文本分类。SVM在解决小样本、非线性及高维模式识别中有许多独特优势，能够通过低样本获取全局最优解。因此，将K-Means和SVM结合，以达到自动识别流行中文钓鱼网站并对其进行分类的目的。验证了两种方法结合应用的有效性。　　关键词关键词：K-Means算法；钓鱼网站；SVM；分类　　中图分类号：TP309 文献标识码：A 文章编号：1672-7800（2016）004-0176-03 　　0引言　　电子商务飞速发展，网络交易在生活中占据了重要地位。与此同时，网络犯罪也日益猖獗，各种木马病毒、钓鱼网站层出不穷，对公民财产造成了严重侵害。据中央电视台报道，2013年我国网民在钓鱼网站遭受的经济损失达300亿元，并且近年呈快速增长趋势。传统的杀毒软件是根据举报，人工将网络链接加入黑名单，这种方法效率很低，很难遏制网络犯罪快速发展趋势。因此，对钓鱼网站识别的研究成为研究热点。目前，对钓鱼网站识别方法的研究有：　　（1）基于URL黑名单匹配识别方法。此种方法的缺点是具有滞后性，识别率低，只能进行一对一匹配，同时入库效率太低。　　（2）基于URL地址分析的识别方法。此种方法在钓鱼技术发展初期效果不错，可是随着技术的发展，越来越多的钓鱼网站在URL上的相似度越来越低，甚至完全没有特征，因此此种方法也逐渐失去效果。　　（3）基于网页视觉特征的钓鱼网站识别。此种方法需要生成目标网站的图像信息，然后与目标特征库比对[1-4]。这种方法效率低，同时很多钓鱼网站没有模仿某一类知名网站，导致特征库的提取存在困难。　　对此，提出一种SVM和K-Means相结合的钓鱼网站识别方法。因为不同类型的钓鱼网站具有不同特征，如果只使用一种通用的特征值来识别计算，会降低识别率。　　K-Means的优点是快速，可以快速对目标网站分类，明确属于哪一类型网站，针对该类型网站所具有的特征使用SVM识别。这样可降低单独使用SVM算法进行通用模板计算所带来的误判。　　1网页文本提取及向量建立　　网页与网页之间的相似性体现在网页内容上。钓鱼网页通过仿冒正规网站的布局和文本内容，达到以假乱真并骗取受害人的信任，这恰好可以作为对其进行正确分类的主要特征。因此，将网页进行分类前先提取网页有效内容，然后进行分词、去除停用词和向量化表示的处理。向量化表示是进行分类的必要前提，表示时使用的是词语的TF-IDF值，将分好的词作为向量的维，所有有效词组组合在一起。　　TF=每一单词数量网页中出现次数最多的词语数量（1）（1）　　IDF=log所有网页总数量含有这一词语的网页数+1（2）　　TF-IDF=TF*IDF（3）　　2网页聚类　　网页聚类通过提取网页词语特征后使用K-Means算法对其进行聚类[5-6]。　　2.1相似度计算　　网页之间的相似度通过余弦相似度表示，其原理是将两个网页想象成空间中的两条有向线段，都是从原点（0，0）开始，指向不同的方向。两条有向线段以原点作为顶点形成一个夹角。如果夹角大小为0，意味着线段指向同一个方向；如果夹角大小为90度，则两条线段垂直，意味着完全不同；如果夹角大小为180度，意味着正好指向不同的方向。因此，在对网页进行聚类时，可以通过计算两个网页向量夹角的大小来判断相似程度。夹角越小，就代表两个网页越相似。余弦值越接近1，就表明夹角越接近0度，也就是两个网页向量越相似，这就是余弦相似性。　　D（S，C）=s1*c1+s2*c2+...+sn*cns21+...+s2nc21+...+c2n（4）　　2.2K-Means聚类　　K-Means算法简单快速，能够快速通过多次迭代将测试样本分为多个类别，具体步骤为：①选取K个指定样本作为初始聚类中心；②计算每个训练样本与聚类中心的距离，然后选取距离最小的作为其新类别；③重新计算新的聚类中心；④重复执行步骤②、③直到稳定；⑤计算每个簇中样本与簇中心最大距离作为阈值。　　3SVM算法　　支持向量机SVM（SupportVectorMachine）是由Vapnik和Cortes于1995年提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有优势。SVM基于VC维理论和结构风险最小原理，根据有限的样本信息，在学习精度和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力[8]。钓鱼网站具有特殊的仿冒特性，因此可以根据特征权值进行分析[7]，分辨是否为钓鱼网站。　　3.1SVM原理　　在进行二分类时，支持向量机使用公式（5）解决了图1所示的二次优化问题。　　minw2+