基于特征加权朴素贝叶斯分类算法的网络用户识别.docVIP

基于特征加权朴素贝叶斯分类算法的网络用户识别.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于特征加权朴素贝叶斯分类算法的网络用户识别 摘 要:基于网络用户的访问记录,提出了采用特征加权的朴素贝叶斯分类算法对用户进行识别。首先利用基于winpcap框架的数据采集系统对用户访问记录进行采集,通过分析记录从5个方面对用户特征进行统计,并经过筛选后对特征进行选取,最后采用特征加权的朴素贝叶斯分类算法对3300个测试样本进行识别,识别率达到了85.73%。实验结果表明该算法能够有效实现对网络用户身份的识别。 关键词: 用户识别;朴素贝叶斯分类器;特征加权;特征选择;数据采集 abstract: based on the access logs of network users, feature weighting naive bayesian classification (fwnbc) algorithm was used to identify users. firstly, the data acquisition system based on winpcap framework was used to collect the access logs of network users, features were counted from five aspects by analyzing these access logs, and then selected after filtering, at last the fwnbc algorithm was used to identify the 3300 samples, and the recognition rate reached 85.73%. the experimental results show that this algorithm is effective to identify the network users. key words: user identification; naive bayesian classifier; feature weighting; feature selection; data acquisition 0 引言 随着我国网民数量的不断增多,与网络应用相关的问题也日益凸显出来,如利用网络发布淫秽、反动信息等等。如何对网络用户行为进行有效监管已成为一大热点问题。用户识别作为网络监管的一种手段,对于用户行为追踪、网络责任人认定等有着重要的意义。 网络用户识别就是通过分析网络用户的特点、构成及其在网络应用过程中行为活动上所表示出来的规律,通过离线学习、提取相关特征后对用户身份进行鉴别或者识别的过程[1]。其包含行为学、知识发现、数据挖掘等范畴的内容,也可以将其简化为用户行为的分类问题。目前有许多分类方法用于构造分类模型,常见的有决策树[2]、决策表、神经网络[3]、支持向量机、遗传算法、贝叶斯网和朴素贝叶斯等[4-5]。朴素贝叶斯分类算法[6]作为一种普遍使用的算法,具有坚实的数学基础以及稳定的分类效率。由于其假设属性集中各属性相对于决策属性独立且重要性相等,这使得冗余的、与分类无关的、相互影响的以及被噪声污染的特征和其他特征具有相同的地位,致使分类的正确性降低[7]。针对上述不足,harry等人提出了加权朴素贝叶斯分类器[8],程克飞等人[7]提出了基于特征加权的朴素贝叶斯分类算法,张明卫等人[9]等人提出了基于相关系数的加权朴素贝叶斯(weighted naive bayesian,wnb)算法等。实验表明,上述改进都能在一定条件下提高朴素贝叶斯分类性能。 本文采用特征加权的朴素贝叶斯分类算法对用户身份进行识别。通过对网络用户行为特征的分析,采用卡方检验(chisquare test,chi)算法对特征进行了提取,并采用文本频率与反文本频率(term frequencyinverse document frequency,tfidf)算法对特征进行加权计算,最后利用加权的朴素贝叶斯分类算法对用户身份进行识别,实验表明该算法可以有效地对用户身份进行识别。  1 朴素贝叶斯用户识别模型 基于朴素贝叶斯分类器的用户身份识别算法,是对朴素贝叶斯分类算法的一种全新应用尝试,但在实现方法及原理上都是相同的,其目标就是通过给定的样本特征值(x1,x2,…,xn),找出与其符合度最高的用户。算法可简单表述为: vmap=arg max p(ci|

文档评论(0)

aena45 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档