关于粗糙集的图书销售信息离群数据检测.pdfVIP

  • 4
  • 0
  • 约 44页
  • 2015-10-14 发布于安徽
  • 举报

关于粗糙集的图书销售信息离群数据检测.pdf

摘要 摘要 本文把目前流行的粗糙集属性约简算法运用到销售数据的离群检测与分 析。离群数据挖掘是数据挖掘的一个分支,目前在很多领域得到运用,挖掘出 来的数据不再是当作噪声数据去掉,具有一定的价值和实用性。本文设计了一 种基于相异度的离群数据挖掘算法,其基本思想是:首先运用正区域约简算法 来求取图书数据集的相对约简,消除冗余属性,再运用相异度公式进行离群数 据的检测,加快了离群检测的速度。本文主要的研究工作包括: 对目前流行的粗糙集理论进行了介绍,并分析了三种主要粗糙集约简算法, 即基于区分矩阵的属性约简算法、基于信息熵的属性约简算法和基于代数形式 的属性约简算法。本文采用了正区域的属性约简算法,此算法更贴近粗糙集的 约简本质,算法简单,且容易理解。 深入研究各种离群数据的挖掘模型的优劣,设计了一种基于相异度的离群 数据挖掘算法,此算法的基本思想是:运用粗糙集的正区域属性约简算法将高 维数据集降为低维数据集,再利用改进后的相异度公式对此约简后的数据集进 行离群数据的检测。同时通过分析涂丽红,杨丽萍等提出的基于相异度的孤立 点挖掘研究的种种缺点证明了本文的相异度离群数据挖掘算法的优势。 为了更好的实现本系统的灵活性,用户可以自定阈值,限定取值范围,输 入的阈值越小,得到的离群记录就越精确,反之,得到的离群记录就越粗糙。 本系统用在图书销售数据集中具有一定的灵活性和实效性。 关键词:粗糙集;相异度;离群数据挖掘;属性约简;销售数据 Abstract Abstract Inthis attributereduction basedonthe paper,thecurrentlyprevailing algorithm setis tothedetectionand ofoutlierconcerti the roughapplied analysis selling.Since hasbeen toa outlier isasub—branchofdata former appliedgreat mining mining,the the as onesand multitudeof mined of fields,where data,insteadbeingregardednoisy then ofcertainvalueand ofoutlier discarded,are algorithm mining applicability.An basedon is thebasicideasasfollows:inthefirst dissimilaritydesigned,with place, the reduction isutilizedtoextracttherelativereductionof region algorithm positive thedataset booksandeliminateredundant thesecond conceming attributes;in place,

文档评论(0)

1亿VIP精品文档

相关文档