- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于特征加权朴素贝叶斯分类算法的网络用户识别
摘 要:基于网络用户的访问记录,提出了采用特征加权的朴素贝叶斯分类算法对用户进行识别。首先利用基于winpcap框架的数据采集系统对用户访问记录进行采集,通过分析记录从5个方面对用户特征进行统计,并经过筛选后对特征进行选取,最后采用特征加权的朴素贝叶斯分类算法对3300个测试样本进行识别,识别率达到了85.73%。实验结果表明该算法能够有效实现对网络用户身份的识别。
关键词:
用户识别;朴素贝叶斯分类器;特征加权;特征选择;数据采集
abstract: based on the access logs of network users, feature weighting naive bayesian classification (fwnbc) algorithm was used to identify users. firstly, the data acquisition system based on winpcap framework was used to collect the access logs of network users, features were counted from five aspects by analyzing these access logs, and then selected after filtering, at last the fwnbc algorithm was used to identify the 3300 samples, and the recognition rate reached 85.73%. the experimental results show that this algorithm is effective to identify the network users.
key words: user identification; naive bayesian classifier; feature weighting; feature selection; data acquisition
0 引言
随着我国网民数量的不断增多,与网络应用相关的问题也日益凸显出来,如利用网络发布淫秽、反动信息等等。如何对网络用户行为进行有效监管已成为一大热点问题。用户识别作为网络监管的一种手段,对于用户行为追踪、网络责任人认定等有着重要的意义。
网络用户识别就是通过分析网络用户的特点、构成及其在网络应用过程中行为活动上所表示出来的规律,通过离线学习、提取相关特征后对用户身份进行鉴别或者识别的过程[1]。其包含行为学、知识发现、数据挖掘等范畴的内容,也可以将其简化为用户行为的分类问题。目前有许多分类方法用于构造分类模型,常见的有决策树[2]、决策表、神经网络[3]、支持向量机、遗传算法、贝叶斯网和朴素贝叶斯等[4-5]。朴素贝叶斯分类算法[6]作为一种普遍使用的算法,具有坚实的数学基础以及稳定的分类效率。由于其假设属性集中各属性相对于决策属性独立且重要性相等,这使得冗余的、与分类无关的、相互影响的以及被噪声污染的特征和其他特征具有相同的地位,致使分类的正确性降低[7]。针对上述不足,harry等人提出了加权朴素贝叶斯分类器[8],程克飞等人[7]提出了基于特征加权的朴素贝叶斯分类算法,张明卫等人[9]等人提出了基于相关系数的加权朴素贝叶斯(weighted naive bayesian,wnb)算法等。实验表明,上述改进都能在一定条件下提高朴素贝叶斯分类性能。
本文采用特征加权的朴素贝叶斯分类算法对用户身份进行识别。通过对网络用户行为特征的分析,采用卡方检验(chisquare test,chi)算法对特征进行了提取,并采用文本频率与反文本频率(term frequencyinverse document frequency,tfidf)算法对特征进行加权计算,最后利用加权的朴素贝叶斯分类算法对用户身份进行识别,实验表明该算法可以有效地对用户身份进行识别。
1 朴素贝叶斯用户识别模型
基于朴素贝叶斯分类器的用户身份识别算法,是对朴素贝叶斯分类算法的一种全新应用尝试,但在实现方法及原理上都是相同的,其目标就是通过给定的样本特征值(x1,x2,…,xn),找出与其符合度最高的用户。算法可简单表述为:
vmap=arg max p(ci|
您可能关注的文档
- 建筑工程施工质量验收规范(主体资料).doc
- 开展区级爱国卫生先进单位申报工作的通知.doc
- 基于脚本的客户端软件结构化存储技术研究(可编辑).doc
- 基于嵌入式ARM-Linux的电子相册设计学士学位毕业设计论文(可编辑).doc
- 建筑工程分项工程施工工艺框图5个(模板、钢筋等).doc
- 建筑排水用硬聚氯乙烯管材.doc
- 建筑工程高大模板支撑体系坍塌事故引发的思考.doc
- 江苏省城市物业管理优秀大厦(Jiangsu city property management excellent building).doc
- 基于广西农垦的国有农场农业规模经营初探.doc
- 库车前陆盆地喜马拉雅运动特征及其油气地质意义.doc
最近下载
- 国开电大汉语中的中国文化终结性考核参考答案.doc VIP
- 地下矿山作业人员试题 (A).docx VIP
- 2025年军队文职统一考试《专业科目》数学真题及答案.pdf VIP
- 专题03 词语(过关训练)-【中职专用】高一语文上学期同步备考知识梳理与专项训练(高教版2023·基础模块上册)(解析版).docx VIP
- 专题02 字形(过关训练)-【中职专用】高一语文上学期同步备考知识梳理与专项训练(高教版2023·基础模块上册)(解析版).docx VIP
- 信息系统安全等级保护测评申请书.doc
- 山东师范大学《人工智能概论》2021-2022学年期末试卷.doc VIP
- 专题01 字音(过关训练)-【中职专用】高一语文上学期同步备考知识梳理与专项训练(高教版2023·基础模块上册)(解析版).docx VIP
- 毛概第一章知识梳理.pdf VIP
- 专题03 相互作用(真题汇编)-2024年浙江省学业水平考试.docx VIP
原创力文档


文档评论(0)