- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于主成分聚类分析的各地区火灾事故分析
班级:信计C112 姓名:杨锋 学号:116655
摘要:消防安全是公共安全的重要组成部分,火灾事故不仅严重威胁着人们的生命财产安全,而且还会引起社会恐慌和不安。鉴于近年来我国火情比较严重,本文根据国家统计局《统计年鉴-2010》年中的火灾事故统计表,通过主成分、聚类法对30个省市火灾事故情况进行了分析。并探讨了这两种方法的可行性,得出了火灾事故严重性评价的主要因素,及根据火灾严重性对各省市进行分类情况,对相关管理部门有一定的参考价值。
关键字:火灾,主成分,聚类分析
一、问题提出
火灾事故是现代社会危害较大,发生较频繁的灾害,其不仅严重威胁着人民的生命财产安全,而且火灾造成的负面影响也严重危害着社会的安定。据国家统计局统计数据显示,2010年全国共发生火灾事故132497起,造成人员死亡1205人,重伤624人,直接经济损失达195945.2万元,造成了巨大的社会负面影响。
另一方面,随着人们生活水平的提高,人们对安全的保障要求也越来越高,因此消防安全就愈发显得重要紧迫,那么如何更加合理的对消防安全进行管理,这就涉及到对以往火灾事故的分析总结,寻前车之鉴来更好的防范未来。
因此,根据主成分分析不同因素对火灾事故严重程度评价的的影响关系,找出主要影响因素,这对火灾严重程度的评判具有重要的意义。进而根据严重程度的主要因素,运用聚类分析把各地的火灾事故情况进行聚类,划分出各个严重性所包含的区域,对有关部门的统筹管理是很有必要的。
二、问题解决的理论方法
1. 主成分分析原理:
主成分分析是一种把原来多个指标化为少数几个互不相关(或相互独立(在总体是多维正态总体时))的综合指标的一种统计方法,可以达到数据简化、揭示变量之间的关系和进行统计解释的目的,为进一步分析总体的性质和数据的统计特性提供一些重要信息[1]。在实际中有重要的应用地位。例如在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。能否从着众多的指标中构造出很少几个互不相关的所谓综合指标,而且这几个综合指标应尽可能充分的反映原来众多指标的信息。从而使辨识系统从高维空间转化成低维空间,降低问题的难度。
对于总体X=(x1,…,xp)’,我们给出X的综合指标F1,…,Fk的确定原则为:
1)Fi是X的线性函数,即要求Fi=Li’X,Li是p*1维待定常数向量,i=1,…,k;
2)要求D(yi)尽可能大,即yi能充分反映X的变化情况,i=1,2,…,k;
3)要求F1,…,Fk互不相关,即Cov(Fi,Fj)=0,或者说F1,…,Fk之间尽可能不含重复信息。
这样的F1,…,Fk均称为X的主成分。注意主成分的个数营销与原始变量的个数,至于应该保留几个主成分应该权衡主成分个数和保留的信息。
主成分的具体求解为:
第一主成分,设X的协方差阵为
由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得
其中(1, (2,…, (p为Σx的特征根,不妨假设(1( (2 ( … ((p 。而U恰好是由特征根相对应的特征向量所组成的正交阵。
i=1,2,…,p
则 为系统的第一主成分,若第一主成分信息量不够则找第二主成分,确定原则相似,即是找第二大特征值对应的特征向量,与X相乘即可。所以,求主成分即是求X的协方差阵的特征向量Ui,UiX即是第i个主成分。
主成分分析本身往往并不是最终目的,而是达到目的的一种手段。它大多用于大型研究项目的某个中间环节。例如用在回归分析、聚类分析等研究项目中。
2.聚类分析原理:
聚类分析的研究目的就是把相似的对象归并成类,研究的主要内容是如何度量相似性以及怎样构造聚类的具体方法以达到分类的目的,所用的工具乃是数学[2]。它是在没有知道类型的个数或对于各种类型的结构未做任何假设情况下的一种比较原始的方法。聚类的依据是相似性或距离。所以,需要引进一些能够刻画相似性的度量指标或数据。
聚类分析的基本思想是我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。 在聚类分析中,通常我们将根据分类对象的不同分为变量
文档评论(0)