- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
混合类型数据相似度及闻格聚类算法
计算机科学2001Vo1.281`1-0.8增刊)
混合类型数据相似度及网格聚类算法
SimilarityofMixedDataTypesandClusteringAlgorithmBased-onGrid
陈 宁 ‘陈 安,周龙软,
(中国科学院数学与系统科学研究院 北京100080)
(中国科学院科技政策与管理科学研究所 北京100080广
Abstract Mostclusteringalgorithmsaredesignedfordatabasehavingasingledatatype.Sincethe
similaritymeasuresaredifferentonmeaning,function,resultdomainanddatastructureofsearchfor
differentdatatypes,theycannothecombinedtogethersimplyanddirectly.丁hispaperpresentsarea-
sonabledefinitionofsimilaritymeasureamongrecordswithmixedtypebasedongeometricadjacency
andinformationgainandproposesagrid-basedclusteringalgorithm-GCMDtofindtheconnectedcom-
ponentsfordatabasewithmixeddatatypes.
Keywords Clustering.Informationgain,Mixedtypedatabase,Similaritymeasure
似性的一个重要因素是属性的类型。本文首先
1.引官 讨论了各种类型数据的相似性,给出了一种基
聚类的目的是将一组数据分组,满足最大 于几何邻接和信息增益的混合类型数据相似
的组内相似性和最小的组间相似性,近年来已 度量方法。然后,提出了一个网格聚类算法,通
被广泛地应用于相似搜索、顾客划分、模式识 过搜索连通分量发现聚类.首先把数据空间划
别、趋势分析等领域。大多数聚类算法针对数 分成网格,把对象按照空间位置映射到相应的
值型数据,把对象映射成空间中的点,对象间 单元中,并计算单元中对象的相似性。相似性
的相似性用点的几何距离来度量。对于非数值 和密度都不小于预先指定周值的单元称为密
型数据,常用的方法是把它们转换为数值型来 集单元,密集单元的连通分量构成一个聚类.
处理。如果转化后的两个点邻近,则认为它们 下面先介绍聚类研究领域的相关算法,然后分
所代表的对象也是相似的。这种方法的问题 别定义了两个混合型对象以及一组对象相似
是:首先无序的分类型属性不能转化为数值空 性的度量方法,并证明了前者是后者的特例.
间中的维,例如顾客交易、电话号码、飞机航 最后提出一个混合型对象的网格聚类算法。
班、邮政编码等。其次几何空间的各维权值相
2.相关工作
等,但实际数据库却并非如此,每个属性对相
似性的影响不同.由于现实的数据库经常同时 聚类算法大致可以分为层次算法、划分算
包含数值型和分类型的属性,因此研究混合型 法、基于密度的算法和网格算法几种.划分算
数据的聚类算法无疑是很重要的。本文的目的 法从一个初始划分开始,利用递归控制策略优
就是研究混合型数据的聚类算法。 化目标函数。每个聚类用中心G]或最接近中心
对象间的距离或相似度是聚类的核心,我 的对象表示,典型的有PAM,CLARA,
们常常按照对象之间的相似性进行划分,划分 CLARANSE等。基于密度的聚类算法把密度
的结果使某种表示聚类质量的评价函数最优。 相同的对象作为一个聚类.DBSCANI1要求给
相似性的度量方法很多,有的用于专门领域, 定半径的邻域中所包含的对象数目不小于某
也有的适用于特定类型的数据,如何选择相似 一给定值,由一个核心对象密度可达的所有对
性的度量方法是一个相当复杂的问题,选择相 象构
您可能关注的文档
最近下载
- 第6课 从小爱科学 第1课时(教学课件)2025统编版道德与法治三年级上册.pptx
- (完整)深圳市小学一至六年级英语单词表 .pdf VIP
- 2023-2024学年浙江省宁波市镇海蛟川书院小升初(分班)数学素质测试卷及参考答案.docx
- 读西游记的读后感(最新).docx VIP
- RCC-G 计部分.pdf VIP
- 病历书写基本规范(2022年版)参考.pdf VIP
- 课题申报书:核心素养导向下初中数学单元整体教学设计的实施策略研究.docx VIP
- 机械基础 课件 模块二任务二 铰链四杆机构的类型及演化.pptx
- 1.乒乓球运动概述教材编辑.ppt VIP
- 偏头痛的护理课件.pptx VIP
文档评论(0)