大数据审计分析 课件 第五章 风险评估-聚类分析.pdf

大数据审计分析 课件 第五章 风险评估-聚类分析.pdf

第五章风险评估——聚类分析

目录

CONTENT

第一节聚类分析基础

第二节实战演练——风险评估分析程序

第一节

聚类分析基础

一、聚类分析的基本概念和常用距离

(一)聚类分析的基本概念

聚类分析(ClusterAnalysis)是基于分析对象的特征,按照一定标准对分析对象进行分类的一种无监督式分析方法。它可以将分析对象划分

为若干组,使得组内分析对象具有最高相似度,且组间分析对象差异较大。

聚类分析是将研究对象分为相对同质的群组的统计分析技术。是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准

,聚类分析能够从样本数据出发,自动进行分类。

(2)聚类分析的常用距离

聚类分析要求组内差异极小,组间差异较大,而个体间差异程度用距离表示,聚类分析中常见的距离有欧氏距离、切贝谢夫距离、布洛克

距离、明考斯基距离、夹角余弦距离等等。

二、聚类分析的方法

•按分类对象不同,聚类分析可以分为样本聚类(Q型聚类)和变量聚类(R型聚类)。

•按分析方法不同,聚类分析可以分为K-means聚类、层次聚类、两阶段聚类等。其中,最为主流的聚类分析方

法为K-means聚类和层次聚类。

文档评论(0)

1亿VIP精品文档

相关文档