- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于数据划分改进DBSCAN算法.pdf
一种基于数据划分的改进的DBSCAN 算法
孙业勤
大连理工大学计算机科学与工程系,大连 (116023 )
E-mail :sun_ye_qin@
摘 要:聚类分析是数据挖掘的核心技术,针对 PDBSCAN 算法在密度差别不大的数据空
间上无法进行分区聚类的问题。本文提出了IPDBSCAN 算法,可以有效的实现对此类数据
空间的聚类。实验证明,本算法具有良好的聚类效果。
关键词:数据挖掘;基于密度的聚类算法;数据分区;平均ε值
中图法分类号:TP301.6
1.引言
近年来,由于信息技术的不断发展,大量的数据被广泛的使用,因此迫切需要将这些
数据转换为有用的信息和知识,为人们所获取。数据挖掘技术应运而生,并且引起了广泛的
关注。
数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database),
就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简
单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。
聚类分析是数据挖掘的核心技术,是指将物理或抽象对象的集合分组成为由类似的对
象组成的多个类的过程。对象根据最大化类内的相似性,最小化类间的相似性原则进行聚类。
聚类是数据挖掘的前期预处理过程,良好的聚类会对数据挖掘的结果起到很大的作用。
2 .基于密度的聚类算法
2 .2 DBSCAN 算法
DBSCAN 算法是一种基于密度的聚类算法。该算法通过检查数据库中每个点的 ε 邻域
来寻找类簇。如果一个点 p 的 ε邻域包含多于 MinPts 个点,则创建一个以 p 为核心对象的
新簇。然后 DBSCAN 以这个簇中的点作为核心对象不断寻找直接密度可达的对象(如图1)。
如此重复,当没有新的点可以被添加到任何簇时,该过程结束。这个过程可能包括一些密度
可达类簇的合并。
图 1 基于密度的聚类中密度可达和密度相连
(a)p 与 q 直接密度可达 (b)o,p,q 都是密度相连的
但是,DBSCAN 算法也存在缺点,DBSCAN 算法需要用户输入两个参数,即 ε (邻域半
径)和 Minpts (ε 邻域内包含对象的最少数目)。但是事实上用户很难在算法运行前确定参
数的具体取值,而且该算法对参数是很敏感的。另外,全局参数 ε对于分布不均匀的数据空
间也很难产生较好的聚类结果。
- 1 -
2 .2 基于数据划分的 DBSCAN 算法
2.2.1 划分原理
周水庚等人提出了一种基于分区的 DBSCAN 算法(PDBSCAN)[3],这种算法的基本思想
是:由于数据集的密度分布差异(如图 2 ),DBSCAN 算法很难获得比较理想的聚类效果,
将数据空间依据某一维或多个维上的分布特性划分为若干个局部区域,然后对每个区域用
DBSCAN 算法分别进行聚类,最后将各个局部类合并。
图2 存在数据密度分布差异的数据空间
2.2.2 算法缺点
此算法考虑到了数据空间上不同的密度分布差异对聚类结果造成的影响,然而,在某
些情况下,并不是所有的局部数据空间相异性都是非常大的,因为在某些情况下统计得到的
数据对象是现实世界中性质相似的实体,诸如个人信息,同一类商品销售的情况,某企业各
年度的财政情况等等。这些类型的数据空间的密度也可能呈现一种“不强烈” 的密度差异现象
(如图3 )。
图 3 数据密度分布差异“不强烈” 的数据空间
图 3 所示的数据空间中,仔细观察可以发现 c1,c2,c3,可以发现这 3 个区域之间的密度
差异并不像图 1 中那样大,而是密度分布逐渐减小,即 c3c2c1 。这就是说,这是几个密
度差异不大的区域。
您可能关注的文档
- 《无间道》等盘点被好莱坞翻拍华语大片.doc
- 《明清时期君主专制制度加强》导学案.doc
- 《机器学习算法原理和编程实践》.pdf
- 《枣树种植技术》(怎样种植枣树).pdf
- 《泄密心》电影叙事特征.pdf
- 《浅谈瓦猫造型工艺品包装设计》本科(论文).doc
- 《火火向日葵》教案.doc
- 《用字母表示数量关系与公式》课件.ppt
- 《电流与电路》单元检测2.doc
- 《综合布线》课程标准.doc
- 2025至2030中国移动治疗台行业发展研究与产业战略规划分析评估报告.docx
- 2025至2030链激酶行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030爆炸物探测扫描仪行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030四川省智能制造行业细分市场及应用领域与趋势展望研究报告.docx
- 2026届高三二轮复习试题政治大单元突破练1生产资料所有制与分配制度含解析.docx
- 2026届高三二轮复习试题政治大单元突破练16哲学基本思想与辩证唯物论含解析.docx
- 2026届高三二轮复习试题政治大单元突破练2社会主义市场经济体制含解析.docx
- 浙江省衢州市五校联盟2025-2026学年高二上学期期中联考技术试题-高中信息技术含解析.docx
- 浙江省金丽衢十二校2026届高三上学期11月联考政治试题含解析.docx
- 2026届高三二轮复习试题政治大单元突破练7领导力量:中国共产党的领导含解析.docx
原创力文档


文档评论(0)