twostep两步法聚类详解分析.docxVIP

下载本文档

93
0
约2.85千字
约 7页
2021-02-24 发布于天津
举报
版权申诉

twostep两步法聚类详解分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

TWOSTEP两步法聚类详解分析系统平台部经营分析组 2012-10-10 第一步完成简单数据处理，以便将原始输入数据压缩为可管理的子聚类集合。第二步使用层级聚类方法将子聚类一步一步合并为更大的聚类。 TwoStep具有一个优点，就是能够为训练数据自动估计最佳聚类数。第一步用到的算法 -BIRCH： Bala need Iterative Reduci ng and Clusteri ng using Hierarchies 优点：适合大的数据集，最小化运行时间和数据扫描在一个类中，给定 N个d维的数据点：{}，其中i=1,2,3 ???.,N,则 CF={ N,L S,SS} CF ( Clustering Feature):包含簇信息的三元组，其中N是类中数据点的数量， LS是N个数据点的线性求和，SS是 N个数据点的平方和，一个 CF向量有足够的信息去计算相似度。可以直接求和： CF1 + CF2 = (N1+N2, LS1+LS2, SS1+SS2) ..)■ .).■ .).■ 2 3 4 5 ￥ ? ? ? ..)■ .).■ .).■ 2 3 4 5 ￥ ? ? ? CF = (5:(16?30)?(54/190)) XI/ V)/ 4 6 5 7 8 ? ? 5 ? 5 3 2 4 4 3 x(x fv /V zt cri = (4, (10,14), 84) CF3 = CF1 十 CF2 卜ig- 2. CF Example 相似度量：给定一个实例图心{} 相似度量：给定一个实例图心 {},我们定义如下 X0 = 半径（每个实例跟图心的平均距离）直径（在一个类中，成对实例的平均距离）Rcral: nodsLuf nodeC^Z)CSDC^D 直径（在一个类中，成对实例的平均距离） Rcral: nods Luf node C^Z) CSD C^D 每个中间节点至多有每个中间节点至多有 B个子节点每个叶节点至多有 L个CF簇，每个簇都满足阈值 T 节点大小由数据空间维度和输入参数 P决定一个CF树有三个参数： B=分支系数，中间节点的最大子节点数量 T=叶节点中的类的半径或直径的阈值 L=叶节点的最大CF簇数量 CF树的插入算法： 1、从根节点开始，在根节点中查找最靠近数据点的 CF簇，移动到子节点并重复该处理直到发现一个最靠近的叶节点 CF簇。 2、在叶节点中： A、如果这一点能被安置在类中，则更新簇； B、如果本次添加超过阈值 T,分裂该簇； C、如果分裂导致簇超过阈值 L,则分裂叶节点； D、如果它的父节点对应的子节点超过阈值 B,则分裂父节点。 3、从根节点到叶节点更新 CF簇信息以适应这个数据点。图表说明：、如果一个叶节点的分支系数不能超过 3，则中间节点LN1分裂。三、如果一个中间节点的分支系数不能超过 3，则根节点将分裂，CF树的高度增加1. 阶段1: 选择初始阈值，依照插入算法，开始一个一个的插入数据点如果上面的插入过程中，CF树的大小超出了可用内存的大小，则增大阈值依照变换算法，将部分建立的树数转换为新的树重复上面的步骤直到整个数据集都被扫描过并已创建了一个完整的树。阶段2 : 第一阶段和第三阶段的桥梁通过增大阈值构建一个更小的 CF树阶段3: 应用全局聚类算法，对叶节点提供的子类进行聚类提高聚类质量阶段4: 扫描整个数据集，给每个数据点打上标签 Data . rJbdMl. 1 n#d illtii Tri^TTmi|iv Iniildinx 门 Iwi lihiiiitl CF irw1 Plid?- ￡ (irpiioiiuL): CorKkitM^ iiiin iltv^irahlr |制厲 by bulldJiiR a ^nioUa C F trev ^iiutllpf CK in^i1 、 Phase J: (npilon?il and off line) : Chisler Roftning 例子:明\1血｛■*CFNodrtie肚■弭■ 例子: 明\1血｛■ * CFNodr tie 肚■弭 ■ !: BTN-jde 1 * :c x n k x X 1: BTXode ” B H X J 图中一个BTNode最多包含4个CFNode每个CFNode就相当于一个簇，而每个 BTNode里面的所有CFNode相当于一个大簇。当插入一个新纪录时，是从底往上修改的，所以叶子节点是等深的，用BLeafNode将所有叶子节点窜连起来，方便挖掘这颗B揺。还是用例子说明吧。先插入第一条记录，用该纪录创建一个 CFNode,再用该CFNode创建一个BTNode作为根节点。图如下： CFNodert CFN