金融数据挖掘选编.docx

下载文档 降价啦

5
0
约8.78千字
约 13页
2017-04-29 发布于湖北
举报
版权申诉
保障服务

金融数据挖掘选编.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

查看更多

金融数据挖掘选编

金融数据挖掘论文院系：理学院专业班级：信息与计算科学132班学号： 201311010213 姓名：施秋梅日期： 2016年6月24日 PAGE \* MERGEFORMAT 12 摘要本文主要讲述金融数据挖掘中的聚类分析，主要介绍聚类分析的几种聚类的方法——系统层次聚类法，k-均值算法，BIRCH算法和基于密度的聚类算法。然后通过几个实例来深度了解这几种算法，最后是聚类分析在生活中的应用。目录 TOC \o 1-3 \h \u HYPERLINK \l _Toc23109 摘要 PAGEREF _Toc23109 1 HYPERLINK \l _Toc24954 1. 前言 3 HYPERLINK \l _Toc15726 2. 相关算法分析 3 HYPERLINK \l _Toc32568 2.1系统层次聚类法 3 HYPERLINK \l _Toc27358 2.2 k-均值算法 4 HYPERLINK \l _Toc27358 2.3 BIRCH算法 6 HYPERLINK \l _Toc27358 2.4 基于密度的聚类算法 7 HYPERLINK \l _Toc16140 3. 实例分析 8 HYPERLINK \l _Toc16015 3.1 R语言的一个实例 8 HYPERLINK \l _Toc18314 4. 应用 10 HYPERLINK \l _Toc18314 5. 总结 11 1、前言聚类分析也称无教师学习或无指导学习，与分类学习相比，聚类的样本一般事先不做标记，需要由聚类学习算法自动确定。聚类分析是在没有训练目标的情况下将样本划分为若干簇的方法。聚类分析是数据挖掘中重要的分析方法，由于数据和问题的复杂性，数据挖掘对聚类方法有一些特殊的需要，这些需要表现为：大规模数据中块特征的认识需要，能够处理不同属性数据的聚组，适应不同形状的聚类方法，具备抗强噪声的能力和较好的解释性，不受输入数据的顺序的影响，高维聚类以及能够和具体的约束兼容等，以上需要造就了丰富的聚类分析方法，也使得聚类分析广泛的应用于客户分析、文本归类、结构分组和行为跟踪等问题中，成为数据挖掘中发展很快而且灵活变化丰富的一个分支。聚类分析是一种探索数据分组的统计方法，其目的是建立一种归类的方法，将一批样本或变量，按照它们在??征上的水程度进行分类，使得组内样品的相似度达到最大，而组间的差距达到最大。即簇内部的人艺两个样本之间具有较高的相似度，而属于不同簇的两个样本之间具有较高的相异度。相异度通常用样本间的距离刻画。在实际应用中，经常将一个簇中的数据样本作为同质的整体看待，有简化问题和过滤冗余信息的作用。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。 2、相关算法分析 2.1系统层次聚类法距离分层的典型方法是层次聚类算法。层次聚类法也称为系统层次聚类法，其想法是首先将所有的样品都单独作为一类，然后计算任意两个类之间的距离，将其中距离最近的两个类合并为一类，同时聚类的数量减一。不断重复这个过程，直到最后只剩下最大的类别。层次聚类算法的步骤可以概括如下：（1）根据适当的距离定义准则，计算现有的N个类别两两之间的距离，找到其中最近的两个类(不妨记为P和Q)；（2）将P，Q合并，作为一个新类PQ，加上剩下的N-2个类，此时共有N-1个类；（3）重复步骤（1）（2），直到聚类数缩减为1停止。系统聚类的算法复杂度是O(n^2)，上述聚类的结果可以用一个树状图展示，如图2.1所示，其中树的最低端表示所有的样品单独成类，最顶端表示所有的样品归为一类，而在此之间，聚类数从N-1变动到2。在任何一个给定的高度上，都可以判断哪些样品被分在树的同一枝，而聚类数的确定，需要通过实际情况进行判断。图2.1 2.2 k-均值算法 k-均值算法是另一种应用范围非常广的聚类方法，它是一种典型的划分聚类的方法。其思想是在给定聚类数K时，通过最小化组内误差平方和来得到每一个样本点的分类。 k-均值算法的过程大致如下：（1）从N个样本点在中任意选择（一般是随机分配）K个作为初始聚类中心；（2）对于剩下的其他样本点，根据他们与样本中心的距离，分别将他们分派给与其最相似的中心所在的类别；（3）计算每个新类的聚类中心；（4）不断重复（2），（3），直到所有的样本点

您可能关注的文档

最近下载

文档评论（0）

jiayou10 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

版权声明书

用户编号：8133070117000003

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 寻找合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录; 分享赚钱

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧，让你安心创作及上传更多优质地内容及提供知识服务！上传QQ群（最新）：751299218。
有任何问题，请随时联系智能客服，侵权专属客服QQ：2885784724！其它问题点击联系我们！本站内容，未经授权，不得采集、搬运！包括但不限于Al采集后用于训练，侵权必究！

公安局备案号:51011502000106|工信部备案号:蜀ICP备08101938号-1|ICP经营许可证/EDI许可证:川B2-20180569|公司营业执照|出版物经营许可证:成新出发高新字第046号|网信算备:510107145616301250011号
© 2010-2025 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992