- 4
- 0
- 约 44页
- 2015-10-14 发布于安徽
- 举报
摘要
摘要
本文把目前流行的粗糙集属性约简算法运用到销售数据的离群检测与分
析。离群数据挖掘是数据挖掘的一个分支,目前在很多领域得到运用,挖掘出
来的数据不再是当作噪声数据去掉,具有一定的价值和实用性。本文设计了一
种基于相异度的离群数据挖掘算法,其基本思想是:首先运用正区域约简算法
来求取图书数据集的相对约简,消除冗余属性,再运用相异度公式进行离群数
据的检测,加快了离群检测的速度。本文主要的研究工作包括:
对目前流行的粗糙集理论进行了介绍,并分析了三种主要粗糙集约简算法,
即基于区分矩阵的属性约简算法、基于信息熵的属性约简算法和基于代数形式
的属性约简算法。本文采用了正区域的属性约简算法,此算法更贴近粗糙集的
约简本质,算法简单,且容易理解。
深入研究各种离群数据的挖掘模型的优劣,设计了一种基于相异度的离群
数据挖掘算法,此算法的基本思想是:运用粗糙集的正区域属性约简算法将高
维数据集降为低维数据集,再利用改进后的相异度公式对此约简后的数据集进
行离群数据的检测。同时通过分析涂丽红,杨丽萍等提出的基于相异度的孤立
点挖掘研究的种种缺点证明了本文的相异度离群数据挖掘算法的优势。
为了更好的实现本系统的灵活性,用户可以自定阈值,限定取值范围,输
入的阈值越小,得到的离群记录就越精确,反之,得到的离群记录就越粗糙。
本系统用在图书销售数据集中具有一定的灵活性和实效性。
关键词:粗糙集;相异度;离群数据挖掘;属性约简;销售数据
Abstract
Abstract
Inthis attributereduction basedonthe
paper,thecurrentlyprevailing algorithm
setis tothedetectionand ofoutlierconcerti the
roughapplied analysis selling.Since
hasbeen toa
outlier isasub—branchofdata former appliedgreat
mining mining,the
the as onesand
multitudeof mined of
fields,where data,insteadbeingregardednoisy
then ofcertainvalueand ofoutlier
discarded,are algorithm mining
applicability.An
basedon is thebasicideasasfollows:inthefirst
dissimilaritydesigned,with place,
the reduction isutilizedtoextracttherelativereductionof
region algorithm
positive
thedataset booksandeliminateredundant thesecond
conceming attributes;in place,
您可能关注的文档
最近下载
- 先进安全应急装备推广目录(工业领域2024版).pdf VIP
- 第一章行为主义心理学与大众传播研究 .ppt VIP
- 五轴调试包840dsl刀库plc库文件.pdf VIP
- 审查调查业务培训课件.pptx VIP
- 中金公司的的内部教材-估值方法.pdf VIP
- TSG D7005-2018 压力管道定期检验规则 工业管道.docx VIP
- 2025年东莞市东华初级中学中考数学模拟试卷附答案解析.docx VIP
- 2025年黑龙江省哈尔滨市中考英语真题卷(含答案与解析).doc VIP
- 建筑防火通用规范GB55037-2022规范解读课件.pptx VIP
- 《陶瓷彩绘装饰工艺》课件——第三讲:新彩彩绘用笔.pptx VIP
原创力文档

文档评论(0)