美国居民收入的预测分析报告.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
论文题目:美国居民收入的预测 组别姓名学号学院专长短号长号本部建模写作编程组别:研究生 评阅情况(评阅专家填写): 评阅1. 评阅2. 评阅3. 美国居民收入的预测 摘要 从居民众多的信息中判别居民年收入问题具有很高的社会实际应用意义,本题主要就是找出判别居民收入是否超过50K的具有一定可信度的检验方法。对于此,我们建立了基于spss的Fisher判别模型、基于MATLAB的BP神经网络模型和主成分分析模型。 问题一和问题二都是判别问题,本文比较了基于SPSS的Fisher判别算法和BP神经网络算法,通过比较,BP神经网络做判别分析的准确性更高。问题一和问题二的区别就在于样本数据的维度问题,问题一只需要考虑连续型数据样???,问题二需要考虑所有的数据信息,因此需要将类别型属性数据进行数值化处理。通过我们选取的BP神经网络的判别模型,问题一的判别准确度检验的结果如下: 训练样本的准确度测试样本的准确度平均值85.7%76.5%对附录三200个居民样本数据的预测结果如下: 年收入统计人数总和占比50k5929.5%=50k14170.5%总和200100%统计的人数总和相对应的居民样本可见正文表5-2。对于问题二的判别准确度的检验结果: 训练样本的准确度测试样本的准确度平均值87%83.03%问题二中的判别模型对附录三200个居民样本数据的预测结果如下: 年收入统计的人数总和占比50k5628%=50k14472%总和200100%有表中的问题一和问题二中对于判别模型准确度检验,以及对附录三的预测结果比较得知,我们建立的判别模型具有较高的可信度。 对于问题三中主成分的提取问题,我们运用SPSS的主成分因子分析得到了与居民年收入相关度较高的8个指标,依次是:hours-per-week、relationship、capital-gain、native-country、education、fnlwgt、occupation、workclass这8项关键因素。为了验证这8个关键因素的正确性,我们保留附录三中这8个主成分样本数据进行年收入的预测,得到的结果: 年收入统计的人数总和占比50K5829%=50K14271%对比可知,我们提取出来的8个主成分具有较强的代表性。 关键字:Fisher判别,BP神经网络,主成分分析,SPSS 1.问题重述 1.1 问题的背景 随着社会经济与科学技术的不断发展,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段。通过一些居民相关的信息测算估计居民年收入对于政府机构、慈善机构客观较真实的了解人民的收入情况、生活水平具有很强的实践意义,从而更好的实行惠民政策。 1.2 需要解决的问题 本题给出的一组从美国1994年人口普查数据库抽取出来的数据,其中包含了年龄,工种,学历,职业,人种以及年收入等相关信息,我们需要通过对所给属性数据进行分析处理,通过正确的判别方法,对已知样本数据进行训练测试,基于此再对附录三给出的数据相关信息判断居民收入是否超过五万美元进行预测分析。由于所给的数据信息中,除了连续型数据之外,还有类别数据,据此我们需要进行前期的数据处理。 问题一:根据附录二中的数据,只考虑连续型属性,提出判别美国居民年收入是否超过5万美元的方法,并检验你提出方法的正确性。按照所提出的方法,判断附录三中的200个居民的年收入是否超过5万美元。 问题二:考虑所有属性(包括连续型属性和类别型属性),提出判别美国居民年收入是否超过5万美元的方法,并检验你提出方法的正确性。按照所提出的方法,判断附录三中的200个居民的年收入是否超过5万美元。 问题三:在第二问的基础上,判断各属性的重要程度,选取几个重要属性,重新建模并于原模型进行对比。 2. 问题分析 问题一:在所给信息中,首先只需考虑连续型属性(即age,fnlwgt, education-num, captical, hours-per-week这五个属性 ),判断这些属性和年收入之间的关系,提出年收入超过50K的判别方法,并检验该判别方法的正确性。得到具备一定可信度的判别方法后,再对附录三中的200个居民数据的年收入是否超过50K做出检验判别。 问题二:问题二不同于问题一的地方在于,问题一只考虑了所给信息中部分是连续型属性的信息,问题二就要考虑所给的全部信息情况,找出这些所有信息和年收入超过50K的判别关系,依然对所得判别方法进行正确性的检验,再对附录三中的200个居民年收入是否超过50K进行判别分析。 问题三:

文档评论(0)

bbnnmm885599 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档