第6章聚类章节导言聚类分析是一种数据挖掘技术,用于将数据集中的对象分成具有相似特征的组。通过聚类分析,可以识别出数据集中的潜在模式和结构,为决策提供更多信息和洞察力。在经济学领域,聚类分析可以用于识别市场细分、消费者行为模式等重要信息,从而指导市场营销和战略决策。
本章内容结构本章主要内容:K-means聚类和层次聚类的相关原理和应用K值优化的常用算法和聚类评价指标结合实际案例和代码示例解决实际经济问题图6.1本章主要内容结构
6.1聚类的概念及应用6.1.1聚类的概念聚类应用在无监督学习中,即数据集的分类决策属性是未知的,没有明确的分类标签。聚类的定义根据数据间的相似程度,将数据集划分成若干子集,每个子集就是一个簇(cluster)聚类的特点簇内相似度高,簇间相似度低应用范围广泛应用在无监督学习中的分类问题
6.1.2聚类的应用领域1。数据分析在分析数据时,可以通过聚类算法,将数据集分成几个集群,分别分析每个集群。应用示例对股票价格影响因子的相关系数进行聚类,分成:高度相关的影响因子中度相关的影响因子轻度相关的影响因子针对不同集群进行针对性分析
2.客户细化根据客户的消费记录,对客户进行聚类,针对每类客户群设计方案,以达成提高效率、减少成本的目的。RFM模型将客户行为分为三个维度进行分析:R(Recency)-近因:客户最近一次消费的时间F(Frequency)-频率:客户消费的频率M(Monetary)-货币:客户消费的金额价值评估客户最近一次消费时间离现在越近,客户价值越高客户消费的频率和金额越高,客户价值越高凭借这三个指标,可对客户进行细分,筛选出有价值的客户。
3.异常检测检测原理依据数据集特征,归类出组间差异大、组内差异小的集群。当出现与所有集群差异大的数据时,该数据的出现极有可能是异常情况应用场景通过提取异常数据,对其进一步检验在大量金融交易信息中发现异常交易4.风险管理使用聚类算法将不同的金融产品划分到不同的组合中,实现更好的风险管理。组合设计组合不同股票时,可以使用聚类算法设计不同的股票组合风险分类将大量股票进行划分,归纳到不同风险组策略制定满足多样化风险管理的需要,制定更适合的投资策略
6.2聚类算法的相关原理6.2.1K-means聚类1.K-means聚类的概念算法名称:K-means算法(K均值算法)核心思想K表示聚类为K个簇means代表取每一个聚类中数据值的均值作为该簇的中心(质心)算法类型:无监督分类算法主要目标将数据集X=\{x_{1},x_{2},\dots,x_{n}\}划分为K个类簇,使得:同一个类簇内的数据差异性尽可能小不同簇中的数据差异性尽可能大算法特点:简单快捷,被广泛使用
2.K-means算法的实现过程以图6.2为例(k=2),样本点为A、B、C、D、E,灰色点为初始种子点:初始化随机选择k个初始种子点分配样本计算每个点与这k个种子点的距离更新中心根据新的分类,计算每个簇的中心位置移动种子点将每个种子点移动到其所代表簇的中心位置迭代重复执行步骤(2)~(4),直到种子点位移小于阈值图6.2K-means算法的实现过程
K-means算法步骤详解如果某个点P_{i}最接近种子点S_{i},则将点P_{i}分配给种子点S_{i}所代表的簇初始化随机选择k个初始种子点。分配样本计算每个点与这k个种子点的距离,将点分配给最近的种子点所代表的簇。更新中心根据新的分类,计算每个簇的中心位置。移动种子点将每个种子点移动到其所代表簇的中心位置。迭代收敛重复执行步骤(2)~(4),直到种子点位移小于阈值。
3.K-means聚类距离在经济问题分析中的作用距离计算方法:K-means通过欧氏距离确定每个数据点归属的类簇属性数值的意义:属性间的数字大小带有一定的意义,表示一定程度上的差异大小示例说明数字0表示低等风险数字1表示中等风险数字2表示高等风险0~2的距离表示低等风险到高等风险间的程度变化,两者之间有距离为2的差异重要注意:属性数字大小的设定需要根据属性特征决定。不同属性一起聚类时,需进行归一化或标准化处理,目的是减少量纲对聚类结果的影响
4。KMeans()函数及相关命令介绍1)KMeans()函数KMeans(n_clusters=8,init=k-means++,n_init=10,max_iter=300,tol=0.0001,n_jobs=1,algorithm=auto)主要参数说明:n_clusters:K值,即初始簇中心个数,默认是8个init:选择初始值的方式k-means++:使用智能的中心初始化方法(默认)r
原创力文档

文档评论(0)