- 18
- 0
- 约8.9千字
- 约 13页
- 2021-09-24 发布于广东
- 举报
ZHEJIANG AF UNIVERSITY
金融数据挖掘论文
院系:理学院
专业班级:信息与计算科学132班
学号: 201311010213
姓名:施秋梅
日期: 2016年6月24日
摘要
本文主要讲述金融数据挖掘屮的聚类分析,主要介绍聚类分析的几种聚类的方法一 —系统层次聚类法,k■均值算法,BIRCH算法和基于密度的聚类算法。然后通过几 个实例来深度了解这几种算法,最后是聚类分析在生活中的应用。
摘要错误!未定义书签。
摘要
TOC \o 1-5 \h \z 前言 3
\o Current Document \h 相关算法分析 3
2. 1系统层次聚类法
2. 2 k-均值算法 4
2. 3 birch 算法 6
4基于密度的聚类算法 7
\o Current Document \h 实例分析 8
1 r语言的一个实例 8
应用 10
总结 11
I ?
、刖B
聚类分析也称无教师学习或无指导学习,与分类学习相比,聚类的样本一般事 先不做标记,需要由聚类学习算法自动确定。聚类分析是在没有训练目标的情况下 将样本划分为若干簇的方法。聚类分析是数据挖掘屮重要的分析方法,由于数据和 问题的复杂性,数据挖掘对聚类方法冇一些特殊的需要,这些需要表现为:大规模 数据中块特征的认识需耍,能够处理不同属性数据的聚组,适应不同形状的聚类方 法,具备抗强噪声的能力和较好的解释性,不受输入数据的顺序的影响,高维聚类 以及能够和具体的约束兼容等,以上需要造就了丰富的聚类分析方法,也使得聚类 分析广泛的应用于客户分析、文木归类、结构分组和行为跟踪等问题中,成为数据 挖掘中发展很快而且灵活变化丰富的一个分支。
聚类分析是一种探索数据分组的统计方法,其目的是建立一种归类的方法,将 一批样木或变量,按照它们在特征上的水程度进行分类,使得组内样品的相似度达 到最大,而组间的差距达到最大。即簇内部的人艺两个样本Z间具有较高的相似度, 而属于不同簇的两个样本之间具冇较高的相异度。相异度通常用样本间的距离刻画。 在实际应用中,经常将一个簇中的数据样木作为同质的整体看待,有简化问题和过 滤冗余信息的作用。
聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包 插数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技 术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以 及把数据源分类到不同的簇中。
2、相关算法分析
2. 1系统层次聚类法
距离分层的典型方法是层次聚类算法。层次聚类法也称为系统层次聚类法,其想 法是首先将所冇的样品都单独作为一类,然后计算任意两个类Z间的距离,将其屮 距离最近的两个类合并为一类,同时聚类的数量减一。不断重复这个过程,直到最 后只剩下最大的类别。层次聚类算法的步骤可以概括如下:
根据适当的距离定义准则,计算现有的N个类别两两之间的距离,找到其
中最近的两个类(不妨记为P和Q);
(2)将P, Q合并,作为一个新类PQ,加上剩下的N-2个类,此吋共冇N-l个
类;
(3)重复步骤(1) (2),直到聚类数缩减为1停止。
系统聚类的算法复杂度是0(『2),上述聚类的结果可以用一个树状图展示,如 图2. 1所示,其屮树的最低端表示所有的样品单独成类,最顶端表示所有的样品归 为一类,而在此Z间,聚类数从N-1变动到2。在任何一个给定的高度上,都可以判 断哪些样品被分在树的同一枝,而聚类数的确定,需要通过实际情况进行判断。
图2. 1
图2. 1
2. 2 k-均值算法
k-均值算法是另一种应用范围非常广的聚类方法,它是一种典型的划分聚类的方 法。其思想是在给定聚类数K时,通过最小化组内误差平方和来得到每一个样本点 的分类。
A均值算法的过程大致如卜\
(1) 从N个样本点在中任意选择(一般是随机分配)K个作为初始聚类中心;
(2) 对于剩下的其他样本点,根据他们与样本中心的距离,分别将他们分派给 与其最相似的屮心所在的类别;
(3) 计算毎个新类的聚类中心;
(4) 不断重复(2) , (3),直到所有的样本点的分类不再改变或类中心不再
改变。
具体如下:
输入:k, data[n];
(1) 选择 k 个初始中心点,例c[O]=data[O], ???c[k-l]=data[k-l];
(2) 对于data[O]???. data[n],分别与c[O]???c[kT]比较,假定与c[i]差值 最少,就标记为i;
(3) 对于所有标记为i点,重新计算c[i] = {所有标记为i的data[j]之和}/ 标记为i的个数;
(4) 重复(2) (3),直到所有c[i]值的变化小于给定阈值。
K-均值算法的第二个人问题是容易受到初始点选择的影响,在分类数据上分辨力 不强,不适用于
原创力文档

文档评论(0)