- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进Kprototypes算法在农民工养老参保中应用研究
改进Kprototypes算法在农民工养老参保中应用研究
摘要:农民工养老问题一直备受社会关注。许多学者对该问题展开了调研,并采用Logistic回归模型来分析调研结果。但是,Logistic回归模型要避免变量间的多元共线性。农民工养老保险参保调研数据各变量之间往往存在关联性,而且数据维度高。针对Logistic回归模型的局限性和调研数据维度高的问题,本文改进了K- prototypes聚类算法,并用于分析农民工未购买养老保险的原因。基于该方法得到的分析结果可以为相关部门制定针对性政策提供参考。
关键词:聚类 改进的K- prototypes算法 农民工养老保险
改革开放以来的城镇化浪潮中,国人印象中皮肤黝黑,风尘仆仆的农民工,为我国的城镇化发展做出了巨大的贡献。然而,在艰辛的体力劳动背后,庞大的农民工群体却一直游离在城市的边缘,无法真正享受农民工养老保险等应有的待遇。正确分析农民工未购买养老保险的原因是解决农民工养老问题的关键,而解决该问题的基础是对调查数据的合理分析[8]。
目前,针对农民工养老参保调研成果的研究主要运用logistic回归进行分析。Logistic回归分析是处理混合型数据常用的方法。在过去的许多年间,logistic回归分析主要用于流行病学研究[14]。现在它的应用更为广泛。但是,logistic回归模型也存在自身的局限性,会影响该方法在调研数据分析中的运用。比如,Logistic回归要求变量之间不存在多元共线性。而农民工养老参保调研数据各变量之间存在着联系。而且,调研的结果数据维度往往比较高,这也给调研数据的分析带来了一定的困难。
生活中,不同的农民工所面临的农民工养老保险参保(以下简称农民工养老参保)问题不同,影响他们参保的因素也不同。基于这样的思路,本文拟采用聚类的方法对样本点进行分析。聚类是一种无监督的学习,因此不受主观判断的影响,更利于体现数据的内在规律。由于本文的数据是混合型数据,我们拟采用广泛用于混合类数据的k-prototypes算法来分析问题。此外,我们注意到,调查问卷所涉及的数据的维度高,运用K-prototypes算法会降低聚类效果,故本文改进了k-prototypes算法。本文在基于K-prototypes算法,对其结果通过分析删除一些大簇中部分出现频率较高的属性后,再次聚类,从而得到更为合理的结果。
本文的结构如下:第二部分,通过查阅文献,分析比较不同的统计分析的优缺点,发现引入聚类算法更为合理。第三部分,介绍K-prototypes算法并且在其基础上提出改进的K-prototypes算法。第四部分,运用改进的K-prototypes算法对农民工养老参保状况分析的运用状况进行分析。最后,总结该方法的优点和目前存在的不足。
一、文献综述
目前,许多学者对农民工养老参保问题的影响因素进行了研究,农民工养老参保率低的情况并非偶然,大多学者认为其和政府、社会、企业以及农民工自身等因素有关。蒋云?S[1]发现,现阶段不合理的缴费率和缴费率和缴费基数降低了农民工参保积极性。刘梦炫[2]指出有些企业为了自身利益,不执行为农民工缴纳养老保险费用的行为,损害了农民工的正当权益。张又山等[3]认为农民工本身工资水平低,就业不稳定,流动性大以及,对养老保险认识不足的原因导致了其参保率低。李珍等[4]提出农民工对养老保险存在需求会受到年龄、收入,就业状况等因素影响的观点。基于安徽省的调查数据,杨哲等[5]建立养老保险参与意愿的Tobit模型,研究发现性别与婚姻对农民工养老保险参与有显著影响。
上述研究并未针对不同的人群来分析未参保的原因,虽然得到了虽然准确的结论,但是,各影响因素的内在联系并不能体现出来。
而针对问卷调查数据的统计方法,国内外许多学者都做过相关研究。其中张、刘[6]指出,目前对问卷调查结果的分析还停留在单指标的频数分析,或者双变量的列联表分析上,而忽视了多个变量之间的联系。而事实上,信息往往隐含在多个变量之间。白、赵[7]提到,基于列联表测量两个定类变量的相互关系时,主要有两种测量方法。其一,建立在卡方统计量理论上的相关程度测量方法;其二,建立误差消减理论基础上的相关程度测量方法。多变量统计的统计方法很多,但从实际应用角度看,使用最广泛的还是回归分析。对数线性回归模型是专门针对定性数据的回归分析方法。但是根据Mosteller[9]的描述,我们知道对于高维数据集给对数线性回归模型选择一个“最佳拟合”是不可能的,且对数线性回归模型在处理定量数据也存在困难。
Logistic回归分析是处理混合型数据最常用的方法。在过去的许多年间, logistic回归分析主要在流行病学中。但是,现在它的应用已经非常广泛了。邹志红[10]利用
您可能关注的文档
- 改良局部切除术治疗十二指肠乳头肿瘤临床价值.doc
- 改良岛状皮瓣在手部组织缺损与手指修复中临床应用.doc
- 改良尿道板纵切卷管法在治疗小儿尿道下裂中应用价值分析.doc
- 改良封闭负压辅助闭合技术联合干细胞移植治疗难愈合性伤口研究.doc
- 改良布朗氏架在股骨粗隆间骨折保守治疗中应用.doc
- 改良平片无张力疝修补术在腹股沟疝中应用.doc
- 改良小切口白内障摘除及人工晶状体植入联合青光眼复合小梁切除术临床疗效观察.doc
- 改良式B―Lynch缝合术在剖宫产产后出血治疗中应用价值.doc
- 改良式B―Lynch缝合术对剖宫产术中子宫收缩乏力性出血作用.doc
- 改良小夹板外固定治疗桡骨远端伸直型骨折效果探析.doc
- 首届全球企业共建高质量 “一带一路”峰会:更好商业,更好世界,加速实现可持续发展目标会议报告2025.docx
- 智慧校园云计算平台技术方案.docx
- 人工智能背景下的设计趋势洞察报告.pptx
- 2025电商行业深度报告-AI+电商服务进入提效阶段,关注后续业绩兑现.docx
- SST固态变压器行业深度:市场现状、发展空间、产业链及相关公司深度梳理 2025.pdf
- 《一站式法学指令手册》-法典之下,算力之上.pdf
- 《一站式品宣指令手册》-从玩具到工具:品牌AIGC应用法则.pdf
- 2025前三季度汽车市场分析报告.pptx
- 6--变电站土建工程监理实施细则.doc
- 厦门大学概率论与数理统计课件(PPT).ppt
最近下载
- 委员会委员申请表.docx VIP
- 1、科拓停车场系统--工程人员手册.ppt VIP
- 用于机车监造的数字化信息追溯方法及系统.pdf VIP
- 《数值分析》(西安电子科技大学)中国大学MOOC(慕课)章节测验试题(答案).pdf
- sf断路器低温报警事故调查分析报告.doc VIP
- 2024-2025学年广东省广州市天河区七年级(上)期末语文试题及答案.docx VIP
- 【精选】《林黛玉进贾府》《林黛玉进贾府》.ppt VIP
- 2024届高考语文复习专题★★语文-2023年高考新课标Ⅱ卷《湖上晚归 》(含解析).pdf VIP
- 第12课 纪念白求恩(基础训练)(教师版).docx VIP
- 江苏省淮安市清河开明中学等校 2024-2025学年七年级上学期11月期中联考道德与法治试题.docx VIP
原创力文档


文档评论(0)