改进Kprototypes算法在农民工养老参保中应用研究.docVIP

下载本文档

8
0
约4.82千字
约 10页
2018-09-10 发布于福建
举报
版权申诉

改进Kprototypes算法在农民工养老参保中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

改进Kprototypes算法在农民工养老参保中应用研究

改进Kprototypes算法在农民工养老参保中应用研究　　摘要：农民工养老问题一直备受社会关注。许多学者对该问题展开了调研，并采用Logistic回归模型来分析调研结果。但是，Logistic回归模型要避免变量间的多元共线性。农民工养老保险参保调研数据各变量之间往往存在关联性，而且数据维度高。针对Logistic回归模型的局限性和调研数据维度高的问题，本文改进了K- prototypes聚类算法，并用于分析农民工未购买养老保险的原因。基于该方法得到的分析结果可以为相关部门制定针对性政策提供参考。　　关键词：聚类改进的K- prototypes算法农民工养老保险　　改革开放以来的城镇化浪潮中，国人印象中皮肤黝黑，风尘仆仆的农民工，为我国的城镇化发展做出了巨大的贡献。然而，在艰辛的体力劳动背后，庞大的农民工群体却一直游离在城市的边缘，无法真正享受农民工养老保险等应有的待遇。正确分析农民工未购买养老保险的原因是解决农民工养老问题的关键，而解决该问题的基础是对调查数据的合理分析[8]。　　目前，针对农民工养老参保调研成果的研究主要运用logistic回归进行分析。Logistic回归分析是处理混合型数据常用的方法。在过去的许多年间，logistic回归分析主要用于流行病学研究[14]。现在它的应用更为广泛。但是，logistic回归模型也存在自身的局限性，会影响该方法在调研数据分析中的运用。比如，Logistic回归要求变量之间不存在多元共线性。而农民工养老参保调研数据各变量之间存在着联系。而且，调研的结果数据维度往往比较高，这也给调研数据的分析带来了一定的困难。　　生活中，不同的农民工所面临的农民工养老保险参保（以下简称农民工养老参保）问题不同，影响他们参保的因素也不同。基于这样的思路，本文拟采用聚类的方法对样本点进行分析。聚类是一种无监督的学习，因此不受主观判断的影响，更利于体现数据的内在规律。由于本文的数据是混合型数据，我们拟采用广泛用于混合类数据的k-prototypes算法来分析问题。此外，我们注意到，调查问卷所涉及的数据的维度高，运用K-prototypes算法会降低聚类效果，故本文改进了k-prototypes算法。本文在基于K-prototypes算法，对其结果通过分析删除一些大簇中部分出现频率较高的属性后，再次聚类，从而得到更为合理的结果。　　本文的结构如下：第二部分，通过查阅文献，分析比较不同的统计分析的优缺点，发现引入聚类算法更为合理。第三部分，介绍K-prototypes算法并且在其基础上提出改进的K-prototypes算法。第四部分，运用改进的K-prototypes算法对农民工养老参保状况分析的运用状况进行分析。最后，总结该方法的优点和目前存在的不足。　　一、文献综述　　目前，许多学者对农民工养老参保问题的影响因素进行了研究，农民工养老参保率低的情况并非偶然，大多学者认为其和政府、社会、企业以及农民工自身等因素有关。蒋云?S[1]发现，现阶段不合理的缴费率和缴费率和缴费基数降低了农民工参保积极性。刘梦炫[2]指出有些企业为了自身利益，不执行为农民工缴纳养老保险费用的行为，损害了农民工的正当权益。张又山等[3]认为农民工本身工资水平低，就业不稳定，流动性大以及，对养老保险认识不足的原因导致了其参保率低。李珍等[4]提出农民工对养老保险存在需求会受到年龄、收入，就业状况等因素影响的观点。基于安徽省的调查数据，杨哲等[5]建立养老保险参与意愿的Tobit模型，研究发现性别与婚姻对农民工养老保险参与有显著影响。　　上述研究并未针对不同的人群来分析未参保的原因，虽然得到了虽然准确的结论，但是，各影响因素的内在联系并不能体现出来。　　而针对问卷调查数据的统计方法，国内外许多学者都做过相关研究。其中张、刘[6]指出，目前对问卷调查结果的分析还停留在单指标的频数分析，或者双变量的列联表分析上，而忽视了多个变量之间的联系。而事实上，信息往往隐含在多个变量之间。白、赵[7]提到，基于列联表测量两个定类变量的相互关系时，主要有两种测量方法。其一，建立在卡方统计量理论上的相关程度测量方法；其二，建立误差消减理论基础上的相关程度测量方法。多变量统计的统计方法很多，但从实际应用角度看，使用最广泛的还是回归分析。对数线性回归模型是专门针对定性数据的回归分析方法。但是根据Mosteller[9]的描述，我们知道对于高维数据集给对数线性回归模型选择一个“最佳拟合”是不可能的，且对数线性回归模型在处理定量数据也存在困难。　　Logistic回归分析是处理混合型数据最常用的方法。在过去的许多年间， logistic回归分析主要在流行病学中。但是，现在它的应用已经非常广泛了。邹志红[10]利用