基于DBSCAN聚类的不平衡数据集过采样方法.pdf

基于DBSCAN聚类的不平衡数据集过采样方法.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第40卷第10期算机仿真2023年10月

文章编号:1006-9348(2023)10-0412-05

基于DBSCAN聚类的不平衡数据集过采样方法

杜博雅,孙静春

(西安交通大学管理学院,陕西西安710049)

摘要:在网络流量检测中,经常出现数据类别不平衡的情况,为改善不平衡数据集的分类效果,提出一种基于DBSCAN聚类

的过采样方法。方法首先对少数类数据进行聚类,之后根据簇的稀疏程度以及簇中少数类样本与多数类样本之间的距离,

为每一个少数类样本点分配过采样比例,并生成合成样本。为进一步检验该算法,选择CIC-IDS2017数据集进行测试,并与

随机过采样和SMOTE算法进行对比,实验结果表明,所提出的算法更优,可以有效地改进不平衡数据集的分类效果。

关键词:不平衡数据集;聚类;过采样逻辑模型

中图分类号:TP391文献标识码:B

ResearchonOversamplingMethodofImbalanced

DatasetBasedonDBSCANClustering

DUBo-ya,SUNJing-chun

(SchoolofManagement,XianJiaotongUniversity,XianShaanxi710049,China)

ABSTRACT:Between-classimbalanceisoftenseeninnetworktrafficdetection.Inordertoimprovethe

classificationeffectofimbalanceddatasets,thispaperproposesanoversamplingmethodbasedonDBSCAN.First,the

minorityclasswasclustered.Then,syntheticsamplesweregeneratedbyassigninganoversamplingratetoeachsample

oftheminorityclass,accordingtothesparsityofeachclusterandthedistanceoftheminorityinstancesfromthema-

jorityinstances.Inordertofurthertestthealgorithm,theCIC-IDS2017datasetwasselectedintheexperiment,and

theproposedalgorithmwascomparewithrandomoversamplingandSMOTEmethods.Theresultsshowthatthepro-

posedalgorithmcaneffectivelyimprovetheclassificationeffectofimbalanceddatasets.

KEYWORDS:Imbalanceddataset;Clustering;Oversampling;Logisticmodel

不平衡是指在分类问题中不同类别的数据量之间存在较大

1

引言差距,这一现象在网络流量分类问题中经常出现。在网络流

随着互联网的普及,网络人侵现象屡见不鲜,人侵检测量数据集中,正常流量的数据量往往大于攻击流量的数据

系统(IDS作为保护计算机网络安全的屏障,可通过捕获的量。而传统的机器学习算法往往以总体的分类精度最大化

流量数据自动检测出

文档评论(0)

151****8026 + 关注
实名认证
内容提供者

安全评价师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年09月13日上传了安全评价师

1亿VIP精品文档

相关文档