金融数据挖掘选编.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
金融数据挖掘选编

金融数据挖掘论文 院系: 理学院 专业班级: 信息与计算科学132班 学号: 201311010213 姓名: 施秋梅 日期: 2016年6月24日  PAGE \* MERGEFORMAT 12 摘要 本文主要讲述金融数据挖掘中的聚类分析,主要介绍聚类分析的几种聚类的方法——系统层次聚类法,k-均值算法,BIRCH算法和基于密度的聚类算法。然后通过几个实例来深度了解这几种算法,最后是聚类分析在生活中的应用。 目 录 TOC \o 1-3 \h \u   HYPERLINK \l _Toc23109 摘要  PAGEREF _Toc23109 1  HYPERLINK \l _Toc24954 1. 前言 3  HYPERLINK \l _Toc15726 2. 相关算法分析 3  HYPERLINK \l _Toc32568 2.1系统层次聚类法 3  HYPERLINK \l _Toc27358 2.2 k-均值算法 4  HYPERLINK \l _Toc27358 2.3 BIRCH算法 6  HYPERLINK \l _Toc27358 2.4 基于密度的聚类算法 7  HYPERLINK \l _Toc16140 3. 实例分析 8  HYPERLINK \l _Toc16015 3.1 R语言的一个实例 8  HYPERLINK \l _Toc18314 4. 应用 10  HYPERLINK \l _Toc18314 5. 总结 11  1、前言 聚类分析也称无教师学习或无指导学习,与分类学习相比,聚类的样本一般事先不做标记,需要由聚类学习算法自动确定。聚类分析是在没有训练目标的情况下将样本划分为若干簇的方法。聚类分析是数据挖掘中重要的分析方法,由于数据和问题的复杂性,数据挖掘对聚类方法有一些特殊的需要,这些需要表现为:大规模数据中块特征的认识需要,能够处理不同属性数据的聚组,适应不同形状的聚类方法,具备抗强噪声的能力和较好的解释性,不受输入数据的顺序的影响,高维聚类以及能够和具体的约束兼容等,以上需要造就了丰富的聚类分析方法,也使得聚类分析广泛的应用于客户分析、文本归类、结构分组和行为跟踪等问题中,成为数据挖掘中发展很快而且灵活变化丰富的一个分支。 聚类分析是一种探索数据分组的统计方法,其目的是建立一种归类的方法,将一批样本或变量,按照它们在??征上的水程度进行分类,使得组内样品的相似度达到最大,而组间的差距达到最大。即簇内部的人艺两个样本之间具有较高的相似度,而属于不同簇的两个样本之间具有较高的相异度。相异度通常用样本间的距离刻画。在实际应用中,经常将一个簇中的数据样本作为同质的整体看待,有简化问题和过滤冗余信息的作用。 聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 2、相关算法分析 2.1系统层次聚类法 距离分层的典型方法是层次聚类算法。层次聚类法也称为系统层次聚类法,其想法是首先将所有的样品都单独作为一类,然后计算任意两个类之间的距离,将其中距离最近的两个类合并为一类,同时聚类的数量减一。不断重复这个过程,直到最后只剩下最大的类别。层次聚类算法的步骤可以概括如下: (1)根据适当的距离定义准则,计算现有的N个类别两两之间的距离,找到其中最近的两个类(不妨记为P和Q); (2)将P,Q合并,作为一个新类PQ,加上剩下的N-2个类,此时共有N-1个类; (3)重复步骤(1)(2),直到聚类数缩减为1停止。 系统聚类的算法复杂度是O(n^2),上述聚类的结果可以用一个树状图展示,如图2.1所示,其中树的最低端表示所有的样品单独成类,最顶端表示所有的样品归为一类,而在此之间,聚类数从N-1变动到2。在任何一个给定的高度上,都可以判断哪些样品被分在树的同一枝,而聚类数的确定,需要通过实际情况进行判断。 图2.1 2.2 k-均值算法 k-均值算法是另一种应用范围非常广的聚类方法,它是一种典型的划分聚类的方法。其思想是在给定聚类数K时,通过最小化组内误差平方和来得到每一个样本点的分类。 k-均值算法的过程大致如下: (1)从N个样本点在中任意选择(一般是随机分配)K个作为初始聚类中心; (2)对于剩下的其他样本点,根据他们与样本中心的距离,分别将他们分派给与其最相似的中心所在的类别; (3)计算每个新类的聚类中心; (4)不断重复(2),(3),直到所有的样本点

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档