基于CHAID决策树的个人收入分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于CHAID决策树的个人收入分析.pdf

第 29卷第4期 数学理论与应用 V01.29N0.4 2OO9年 12月 MATHEMATICAL IHE()RYAND APPIJCATIONS Dec.2oo9 基于CHAID决策树的个人收入分析 黄 奇 (中南大学数学科学与计算技术学院,长沙,410075) 摘 要 本文提 出了应用CHAID决策树方法来分析国民个人收入。首先本文全面分析了CHAID决策树的构 造过程,最后通过实证分析,从大量的个人信息数据集中,运用CHAID决策树构建出了一个分析模型,该模型 提供了许多潜在的、有用的信息。 关键词 CHAID决策树 个人收入 AnalysisofPersonalIncomeBasedon CHAID DecisionTree HuangQi (SchoolofMathematicalScienceandComputingTechnology,CSU,Chnagsha,410075) Abstract ThispaperusesCHAIDdecisiontreetothenaalysisofpersonalincome.TileCHAIDdceisiontreecanprovidea l0tofhiddeninformationfrom atreemode1.Firstly,tileconstructionofCHAIDdecisiontreeisintroduced . Thenallexample aboutpersonalincomeisnaalyzedusingCHAIDdecisiontree. Keywords CHAID decisiontree Personal income 把国民按收入水平分类,研究各个收入阶层的属性特征,同时研究这些属性特征对个人收 入的影响,这对一个 国家发展措施的制定具有指导作用 。直观上,个人收入水平会受到如地 域、受教育程度、职业、性别等因素的影响,那么它们的影响作用是怎样的?能否构建出一个科 学的评估模型?有些学者采用分类回归村构造该分类模型_】J,但是回归分析要求样本数据集 具有较好的分布规律。有些学者采用灰色关联分析方法 J,但是该方法只是注重分析各个影 响因素之间的相互关系,却不能构造出一个分类规则出来 。而有些学者采用神经网络来分 析 j,这种方法是一种黑箱操作,可控性不是很好。本文是采用 CHAID决策树立方法对该分 类问题进行分析研究,从一个大样本数据集中构造出一个分类模型,其提供一些较好的分类规 则。 决策树方法广泛应用于和分类相关的各种问题,属于有监督的归纳学习算法 J。决策树 从根节点(总数据集)开始,按照某种规则,选择属性进行分裂,再按照某种规则生成子节点;子 * 李俊平 教授推荐 收稿 1]】:2009F5月 19日 数学理论与应用 节点再重复先前步骤,直到达到某种停机准则,从而一棵决策树变生长完毕。 1 决策树分裂与生长过程 1.1 决策树概要 决策树划分规则是采用信息增益最大原理或纯度测量[5],来选择分裂的属性依据;然后是 根据分裂属性如何分裂该父节点来生成子节点,逐层进行,最后生成一个完整的树。所以,树 的生长过程分为两个步骤:第一步是分裂过程,第二步是生长过程。 1.2 a JI)决策树分裂过程 定义 1 设信源 的符号取值集合为A={ ,a:,…,a},其中信号a∈A出现的概率为 P P[X= ],称 ,(a)=一logp为a信息量。信息量的数学期望为信源的平均信息量或信 息熵,记为 (),有: H(X):~ plogp (1) 决策树分类方法利用信息量增加作为特征选择的一种指标。信息增益衡量每个属

文档评论(0)

itxtu26 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档