金融数据挖掘.docVIP

  • 18
  • 0
  • 约8.9千字
  • 约 13页
  • 2021-09-24 发布于广东
  • 举报
ZHEJIANG AF UNIVERSITY 金融数据挖掘论文 院系:理学院 专业班级:信息与计算科学132班 学号: 201311010213 姓名:施秋梅 日期: 2016年6月24日 摘要 本文主要讲述金融数据挖掘屮的聚类分析,主要介绍聚类分析的几种聚类的方法一 —系统层次聚类法,k■均值算法,BIRCH算法和基于密度的聚类算法。然后通过几 个实例来深度了解这几种算法,最后是聚类分析在生活中的应用。 摘要错误!未定义书签。 摘要 TOC \o 1-5 \h \z 前言 3 \o Current Document \h 相关算法分析 3 2. 1系统层次聚类法 2. 2 k-均值算法 4 2. 3 birch 算法 6 4基于密度的聚类算法 7 \o Current Document \h 实例分析 8 1 r语言的一个实例 8 应用 10 总结 11 I ? 、刖B 聚类分析也称无教师学习或无指导学习,与分类学习相比,聚类的样本一般事 先不做标记,需要由聚类学习算法自动确定。聚类分析是在没有训练目标的情况下 将样本划分为若干簇的方法。聚类分析是数据挖掘屮重要的分析方法,由于数据和 问题的复杂性,数据挖掘对聚类方法冇一些特殊的需要,这些需要表现为:大规模 数据中块特征的认识需耍,能够处理不同属性数据的聚组,适应不同形状的聚类方 法,具备抗强噪声的能力和较好的解释性,不受输入数据的顺序的影响,高维聚类 以及能够和具体的约束兼容等,以上需要造就了丰富的聚类分析方法,也使得聚类 分析广泛的应用于客户分析、文木归类、结构分组和行为跟踪等问题中,成为数据 挖掘中发展很快而且灵活变化丰富的一个分支。 聚类分析是一种探索数据分组的统计方法,其目的是建立一种归类的方法,将 一批样木或变量,按照它们在特征上的水程度进行分类,使得组内样品的相似度达 到最大,而组间的差距达到最大。即簇内部的人艺两个样本Z间具有较高的相似度, 而属于不同簇的两个样本之间具冇较高的相异度。相异度通常用样本间的距离刻画。 在实际应用中,经常将一个簇中的数据样木作为同质的整体看待,有简化问题和过 滤冗余信息的作用。 聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包 插数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技 术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以 及把数据源分类到不同的簇中。 2、相关算法分析 2. 1系统层次聚类法 距离分层的典型方法是层次聚类算法。层次聚类法也称为系统层次聚类法,其想 法是首先将所冇的样品都单独作为一类,然后计算任意两个类Z间的距离,将其屮 距离最近的两个类合并为一类,同时聚类的数量减一。不断重复这个过程,直到最 后只剩下最大的类别。层次聚类算法的步骤可以概括如下: 根据适当的距离定义准则,计算现有的N个类别两两之间的距离,找到其 中最近的两个类(不妨记为P和Q); (2)将P, Q合并,作为一个新类PQ,加上剩下的N-2个类,此吋共冇N-l个 类; (3)重复步骤(1) (2),直到聚类数缩减为1停止。 系统聚类的算法复杂度是0(『2),上述聚类的结果可以用一个树状图展示,如 图2. 1所示,其屮树的最低端表示所有的样品单独成类,最顶端表示所有的样品归 为一类,而在此Z间,聚类数从N-1变动到2。在任何一个给定的高度上,都可以判 断哪些样品被分在树的同一枝,而聚类数的确定,需要通过实际情况进行判断。 图2. 1 图2. 1 2. 2 k-均值算法 k-均值算法是另一种应用范围非常广的聚类方法,它是一种典型的划分聚类的方 法。其思想是在给定聚类数K时,通过最小化组内误差平方和来得到每一个样本点 的分类。 A均值算法的过程大致如卜\ (1) 从N个样本点在中任意选择(一般是随机分配)K个作为初始聚类中心; (2) 对于剩下的其他样本点,根据他们与样本中心的距离,分别将他们分派给 与其最相似的屮心所在的类别; (3) 计算毎个新类的聚类中心; (4) 不断重复(2) , (3),直到所有的样本点的分类不再改变或类中心不再 改变。 具体如下: 输入:k, data[n]; (1) 选择 k 个初始中心点,例c[O]=data[O], ???c[k-l]=data[k-l]; (2) 对于data[O]???. data[n],分别与c[O]???c[kT]比较,假定与c[i]差值 最少,就标记为i; (3) 对于所有标记为i点,重新计算c[i] = {所有标记为i的data[j]之和}/ 标记为i的个数; (4) 重复(2) (3),直到所有c[i]值的变化小于给定阈值。 K-均值算法的第二个人问题是容易受到初始点选择的影响,在分类数据上分辨力 不强,不适用于

文档评论(0)

1亿VIP精品文档

相关文档