高教社2023大数据金融教学课件第4讲-聚类分析及其在金融运用.pptx

高教社2023大数据金融教学课件第4讲-聚类分析及其在金融运用.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第四讲聚类分析及其在金融运用;在大数据时代中,如何从庞杂的数据资源中挖掘优质信息成为重要问题。

大数据聚类是数据密集型科学的基础性、普遍性问题,是数据分析的重要基础,聚类分析就是数据挖掘的实用方法之一。

聚类分析是何概念?有哪些具体的分析方法?其在各领域尤其是金融领域是怎样应用的?;了解聚类分析的基本概念;

理解聚类分析的不同方法及适用情形;

掌握聚类分析方法在不同领域的运用,特别是金融领域。

;一、聚类分析概述;指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。

聚类所要求划分的类是未知的。

聚类是搜索簇的无监督学习过程

聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。;基于划分的聚类算法:

对散点进行聚类,挑选几个点作为初始中心点,根据一定规则迭代重置聚类中心点;适用于小规模数据。

K-means:计算样本点与类簇质心的距离,与类簇质心相近的样本点划分为同一类簇,通过样本间的距离来衡量相似度

K质心:选择原有样本中的样本点作为代表对象来代表这个簇,计算剩下的样本点与代表对象的距离,将样本点划分到与其距离最近的代表对象所在的簇中。

基于层次的聚类算法:

平衡迭代削减聚类法:构建聚类特征树,利用树结构快速聚类

基于层次的聚类算法:

该算法能够用于挖掘任意形状的簇,并且能有效过滤掉噪声样本对于聚类结果的影响。

DBSCAN:将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,将簇定义为密度相连的点的最大集合

;商业领域——面向客户

确定客户群

描绘客户特征

定制化客户管理

其他领域

动植物聚类、基因聚类,获取对种群固有结构的认识

压缩图片、影像,修复文档

;股票投资策略分析

股票内在价值、投资策略、投资风险等

金融机构资产配置

业务收益、业务条线偏好、平均期限等

精准营销策略制定

客户基本特征、消费习惯、风险偏好等;二、聚类的原理与算法;K均值系列算法

K-means

K质心

层次聚类算法

平衡迭代???减聚类法

平衡迭代削减聚类法

基于密度的聚类算法

DBSCAN算法

;K-Means算法是计算样本点与类簇质心的距离,与类簇质心相近的样本点划分为同一类簇。

对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。

聚类迭代过程:;步骤;K质心算法通过选择原有样本中的样本点作为代表对象来代表这个簇,计算剩下的样本点与代表对象的距离,将样本点划分到与其距离最近的代表对象所在的簇中。

该算法减小了由于异常数据的严重离群所引起的平均值偏离,克服了原有K-means算法容易受异常数据影响的缺点。

当数据存在离群点和噪音点时,K质心算法要比K均值算法更加稳健。;步骤;也称系统聚类

首先,计算网络节点间的相似性或距离

然后,采用单连接层次聚类或全连接层次聚类将网络节点组成一个树状图层次结构。

聚合聚类(自下而上):层次凝聚聚类算法、平衡迭代削减聚类法

分裂聚类(自上而下):分裂的层次聚类算法

最后,根据树状结构划分类别;单连接:两个类间的距离定义为一个类的所有实例到另一个类的所有实例之间最短的那个距离。此时A和B更近(A1,B1)。

全连接:两个类间的距离定义为一个类的所有实例到另一个类的所有实例之间最长的那个距离。B和C更近(B1,C1)。;适用数据量大、类别数较多的情况;

利用聚类特征树快速聚类,每一个节点是由若干个聚类特征组成;

主要步骤如下:

将所有的样本一次读入,在内存中建立一颗聚类特征树;

将第一步建立的聚类特征树进行筛选,去除一些异常聚类特征节点,对于一些超球体距离非常近的元组进行合并;

利用其他聚类算法对所有的聚类特征元组进行聚类,得到一颗较好的聚类特征树;

利用(3)生成的聚类特征树的所有聚类特征节点的质心,作为初始质心点,对所有的样本点按距离远近进行聚类。;将每个对象作为一个簇,根据准则一步步合并这些簇,反复进行直到所有的对象最终满足给定的簇数目。

主要步骤如下:

将每个对象当成一个初始簇。

计算任意两个簇的距离,并找到最近的两个簇。

合并两个簇,生成新的簇的集合。

直到终止条件得到满足。;DBSCAN算法一般假定类别可以通过样本分布的紧密程度(密度)决定;

该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合;

基于密度的聚类算法是根据密度而不是距离来计算样本相似度,所以基于密度的聚类算法能够用于挖掘任意形状的簇,且能够有效过滤掉噪声样本。

;DBSCAN算法是基于一组邻域来描述样本集的紧密程度的,参数用来描述邻域的样本分布紧密程度。

;任意选择一个没有类别的核心对象作为种子,

通过

文档评论(0)

A~下一站守候 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档