- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2009.10.30 1 2009.10.30 1 1 模式识别的理论与方法 ——聚类分析 主要内容 数据预处理 距离与相似系数 算法分析 实例分析 聚类分析又称群分析,它是研究(样本/样品/模式)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。严格的数学定义是较麻烦的,在不同问题中类的定义是不同的。 聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。 在社会经济领域中存在着大量分类问题,比如对我国大陆31个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对31个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。又比如若对某些大城市的物价指数进行考察等等。 总之,需要分类的问题很多,因此聚类分析这个有用的数学工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。 值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更好;并且没有哪一种聚类方法具有绝对优势,如果有优势,也只是相对于具体的数据特征而言。 聚类分析内容非常丰富,有简单聚类法、层次聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。这里主要介绍常用的聚类算法:简单聚类法、层次聚类法、动态聚类法、模糊聚类法。 数据预处理 数据预处理 1、标准差标准化 标准差标准化是先将原始数据按列取平均,并计算各列的标准差。然后按下式计算标准化数据矩阵的元素 数据预处理 2、极大值标准化 极大值标准化是将原始数据矩阵中的元素分别除以所在列的最大值,其商即为标准化数据矩阵的元素 数据预处理 3、极差标准化 极差标准化是将原始数据矩阵中的元素减去该列的极小值后除以该列最大值与最小值之差,其商即为标准化数据矩阵的元素 数据预处理 4、均值标准化 均值标准化是将原始数据矩阵中的元素除以所在列的平均值,其商即为标准化数据矩阵的元素 数据预处理 5、中心标准化 中心标准化是将原始数据矩阵中的元素减去该列的的平均值,其商即为标准化数据矩阵的元素 6、对数标准化 对数标准化是将原始数据矩阵中的元素取常用对数后作为标准化数据矩阵的元素 数据预处理 由上述标准化方法可知,中心标准化法(方法5)和对数标准化法(方法6)达不到无量纲目的。一个好的变换方法,应在实现无量纲的同时,保持原有各指标的分辨率,即变异性的大小。现将方法1(标准差)、方法2 (极大值) 、方法3 (极差)和方法4 (均值)变换后数据的特征列于表1。 数据预处理 由表1知,方法1变换后,个指标的均值和标准差完全相同,分辨率已被完全同化;方法3一般也缩小了各指标之间的变异程度差异的作用,分辨率已被部分完全同化;方法2和方法4没有改变原始数据的变异程度,但方法2易受个别极端值的影响。综上,采用方法4也即均值标准化进行原始数据标准化效果较好。 距离与相似系数 为了将样本进行分类,就需要研究样本之间关系。目前用得最多的方法有两个: 一种方法是将一个样本看作m维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。 另一种方法是用相似系数,性质越接近的样本,它们的相似系数的绝对值越接近1;而彼此无关的样本,它们的相似系数的绝对值越接近于零。比较相似的样本归为一类,不怎么相似的样本归为不同的类。 但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大,因此先介绍变量的类型。 距离与相似系数 由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分: 间隔尺度:变量是用连续的量来表示的,如长度、重量、压力、速度等等。在间隔尺度中,如果存在绝对零点,又称比例尺度,这里并不严格区分比例尺度和间隔尺
文档评论(0)