两步聚类中文版论述.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目录 第一节 摘要 2 第二节 介绍 2 第三节 统计方法 2 第四节 两步聚类方法的分析 3 第五节 案例研究 7 第六节 输入 7 第 8 第八节 讨论 10 第九节 结论 11 第一节 摘要 本文利用SPSS两步聚类的方法将现有的数据分为三个集群以分析银行客户的信息。对于我们的案例研究,这个方法是完美的,因为与其他经典聚类方法相比,两步聚类方法采用混合数据(包括连续和分类变量),它也发现了最优数量的集群。两步聚类方法创建三个客户的配置文件,最大的一组包括最有资历(与银行合作时间悠久)的客户,其信用卡申请的目的是教育或者公司业务。第二组主要包括拥有房产的客户,但主要是失业,他们信用卡申请的目的在于再培训或者添置家庭用品。第三组主要是包括那些拥有未知属性的人,他们申请额度的目的在于购买汽车、添置电视或者教育。本文所涉及的研究目的主要在于便于本行更好的管理以加强公司的利润空间。 第二节 介绍 在不同的领域中,不同的应用程都序可以使用聚类算法。然而,大多数的这些算法只处理数值数据和分类数据。然而,现实世界的数据可能包含数值和分类属性。两步聚类的方法是SPSS中解决这个问题的一个途径之一。 在本文中,我们打算从一个银行提供的公共数据集中使用两部聚类的方法来确定银行客户的资料。该方法的优势在于可以确定适当数量的集群,所以我们的目标是找到这个概要文件的数量,有效地管理现有的和可能存在的客户。 在下面几节中,我们介绍两步聚类的方法和案例研究中的输入、输出和结果的分析。 第三节 统计方法 数据分组(或数据集群)是一种方法,可以形成具有类似特征的类的对象。集群通常是与分类混淆,但有一个主要的区别,即分类时,对象被分配到预定义的类,而在集群的情况下,必须定义这些类。 我们预计数据时使用集群技术自然分组到不同的类别。集群类别的物品有很多共同的特点,例如,客户、事件等等。如果问题是复杂的,在聚类数据,其他数据挖掘技术可以应用(如神经网络和决策树)。 经典的聚类方法使用分层或分区算法。分层算法集群的基础上集群,确定所有的集群,建立不同的分区,然后评估他们某些标准。在SPSS,聚类分析可以、分层集群或k - means聚类,每个都依赖不同的算法来创建集群。最后两个经典的分类方法基于分层、分区算法,SPSS 中是特别设计和实现方法。 分层集群是有限的小数据集,k - means仅限于连续值基于连续和分类变量可以创建集群模型。 接下来,我们方法,突出其优势。 。。使用一个凝聚的层次聚类。经典的聚类分析方法相比,使连续分类属性。此外,该方法可以自动确定最优数量的集群。 在步骤中,它会扫描数据记录,基于的距离决定当前记录是否可以添加到一个以前形成的集群或开始一个新的集群。测距的方法使用了两个类型:欧式距离和对数似。 过程实现通过构建一个数据结构称为CF(集群特性)树,其中包含集群中心。CF树水平的节点,每个节点有一个条目的数量。。每一个记录,从根节点开始,找到最近的子节点递归,沿着CF树下行。一旦到达一个叶子节点,该算法找到最近的叶子节点中的叶条目。如果记录在一个阈值距离,就会记录添加到CF树更新。否则,它会创建一个新的叶子节点的值。 在CF树,该算法实现了一个可选的步骤可以解决非典型值(异常值)。离群值被认为并不能很好的适合任何集群。在一片叶子如果记录的数量小于一定比例的规模最大的CF树中的叶子条目被认为是离群值;默认情况下,这个比例是25%。在重建CF树之前,搜索潜在的典型值,将他们一边。CF树重建后,程序检查这些值可以不增加树的大小。最后,值不被认为是离群值。 如果CF树超过允许的最大尺寸,它基于现有的通过增加阈值距离重建CF树,。新的CF树,也允许输入记录。 使用一个凝结的自动分层方法决定了集群的数量。 层次聚类方法是指集群不断融合的过程,直到一个集群组所有记录。这个过程始于为每个子集定义一个初始集群。然后,所有集群进行比较集群之间的距离是合并成一个集群。这个过程直到所有集群已经合并。因此,它是相当简单的比较不同数量的集群解决方案。 计算集群之间的距离,可以使用欧式距离和对数似距离。 欧式距离只有所有变量是连续的。。集群,两个集群之间中心之间的欧式距离。集群中心定义为集群。 可以使用对数似距离连续和分类变量。两个集群之间的距离与似然函数的自然对数的减少,因此他们被分组到一个集群。计算对数似距离,假定连续变量正态分布和分类变量的多项式分布,以及变量是相互独立的。 其中 在公式(2)中 是i和j两个集群之间的距离;索引代表通过集群i和j的结合后生成的新的集群;是所有连续变量的总数;是所有分组变量的总数;是第k个分类变量的数量;是S集群中所有数据记录的数量;是

文档评论(0)

贪玩蓝月 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档