各地区人口的城乡构成和出生率、死亡率、自然增长率的分析.doc

下载文档

376
1
约4.77千字
约 4页
2020-03-12 发布于山西
举报
版权申诉
保障服务

各地区人口的城乡构成和出生率、死亡率、自然增长率的分析.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要：利用系统聚类法以及类之间的中间距离（组间距离）对中国统计年鉴2016年的全国各个地区人口的城乡构成、出生率、死亡率、自然增长率等指标进行聚类分析，找出上述指标数值相似的省市，并比较这些省市的经济发展水平是否一样，从而进一步得出上述指标在一定程度上影响着该省市的经济发展状况。关键词：系统聚类法，人口城乡分布，出生率，死亡率，自然增长率一、研究背景及意义一个地区的城乡构成以及这个地区的出生率、死亡率、自然增长率可以在一定程度上反映出该地区的经济发展水平，城乡构成较为合理时，或者是死亡率及出生率处于平稳状态、自然增长率处于较低水平时，可以说明该地区经济发达，生产力水平高；科技发达，生活条件好，同时还可以说明该地区有良好的社会保险和福利制度，人们的受教育水平高。出生率-死亡率的值较低时，说明该地区的人口增长缓慢，一般是受到当地的经济发展水平，社会保障和人们的生育观念的影响。如果一个地区的城乡结构不合理，自然增长率一直处于较高水平，则说明该地区经济落后，生活质量差，现代化的水平低，需要较多的劳动力，社会保险和福利制度不完善，同时一部分原因还可能是受到“养儿防老”这种传统的思想的影响；所以，一个地区的经济发展水平在某种程度上能够通过该地区人口的城乡构成、出生率、死亡率以及自然增长率展现出来。利用聚类分析的方法对各个地区人口的相关指标与一个城市经济发展水平之间的联系进行探究，用数据来说明在中国哪些地区相对发达，哪些地区相对落后，同时可以为国家在哪些地区可以鼓励生育，在哪些地区应该实行计划生育，在哪些地区应该更好地提供社会保险和福利制度提供了一定的参考意见。二、数据来源和描述 2.1数据来源本论文的所有数据都出自于中华人民共和国的中国统计年鉴（2016），（URL：/tjsj/ndsj/2014/indexch.htm）简介：2016年统计年鉴当中涵盖了2015年全国及各个省、自治区、直辖市每年经济与社会各个方面的大批统计数据资料，以及以往关键年份以及近二十年的全国重要统计数据资料，每一年国家统计局都会对其加以出版并且全面发行，它是我国权威性最高、涵盖内容最广阔、具有综合性的统计年鉴。 2.2数据描述本数据集当中涵盖了全国除香港、澳门、台湾之外的31个省市的城乡构成及出生率、死亡率、自然增长率的状况，数据是按照2015年人口波动状况抽样调查的数据推测计算而出，全国总人口按照抽样及调查误差而展开了更正，分地区的相关数据未做更正。现役军人的数量涵盖在全国总人口当中，但是却未涵盖在分地区数字当中。在本论文做聚类分析的过程中，由于研究的是各省市之间的关系，所以删掉了全国的总人口数。（具体数据格式参照表1）三、分析方法及原理 3.1 分析方法借助于spss中的聚类分析的方法，找出每一个省市的城乡人口分布、出生率、死亡率、自然增长率等各种指标的相似的省市，进而分析其经济发展水平是否也处于同一水平。本论文主要采用系统聚类的方法对样品加以聚类，所以属于Q型。 3.2 分析原理 3.2.1 Q型聚类统计量对样品进行聚类时，借助“距离”来对变量之间的接近程度进行描述，将每一个样品的观测值看做p维空间里的一个特定的点。如此一来，即可借助该空间中两个点的距离来对两个样品之间的接近程度进行表示。倘若距离的数值愈小，则代表两者之间的接近程度愈高，两者之间的共同点越多，这两个样品越应该划分为一类；倘若距离的数值愈大，则代表其接近程度愈低，其间的共同点也就愈少，那么这两个样品就不应该被划分为同一类。设有p个样品，，。。。，每一个样品有q个变量的测试数据，即有q个属性的变量，如（i[p，j[q）指的是第i个样品的第j个属性变量的测试数据，这样的一个矩阵称为样品的观测值矩阵X。对样品观测数据矩阵中的样品=及=，其分别是m维空间里的点，使用频率较高的距离公式如下： 1）绝对值距离 d(,)= 2）欧式距离 d(,)= 3）切比雪夫距离 d(,)= 4）闵可夫斯基距离 d(,)= 5）马哈拉诺比斯距离 d(,)= 其中是样品的观测数据矩阵的协方差。 3.2.2 系统聚类当前，在聚类法中，系统聚类法的应用频率较高，而且应用面较为广阔，在大数据的分析中尤为适用，其核心理念是把等待聚类的p个变量分别视作不同的类，总共有q类；然后按照事先选定的聚类方法计算每两个类别之间的聚类统计量，即某种相似系数（或者是某种距离），把关系密切度最高（或者是二者之间距离最短）的两个类合成同一类，其余的类不发生任何变化就可得到n-1类，再按照前面事先规定的聚类方法重新计算新形成的类与其他类之间的相似系数（或者是距离），再把关系密切度最高的两个类合成一个全新的类，其余的类不发生任何变化，即得到了n-2个类，这样继续一步步的迭代，每一次的迭代都会减少一类，直到最后所有的变量（或