- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于CHAID决策树的个人收入分析.pdf
第 29卷第4期 数学理论与应用 V01.29N0.4
2OO9年 12月 MATHEMATICAL IHE()RYAND APPIJCATIONS Dec.2oo9
基于CHAID决策树的个人收入分析
黄 奇
(中南大学数学科学与计算技术学院,长沙,410075)
摘 要 本文提 出了应用CHAID决策树方法来分析国民个人收入。首先本文全面分析了CHAID决策树的构
造过程,最后通过实证分析,从大量的个人信息数据集中,运用CHAID决策树构建出了一个分析模型,该模型
提供了许多潜在的、有用的信息。
关键词 CHAID决策树 个人收入
AnalysisofPersonalIncomeBasedon CHAID DecisionTree
HuangQi
(SchoolofMathematicalScienceandComputingTechnology,CSU,Chnagsha,410075)
Abstract ThispaperusesCHAIDdecisiontreetothenaalysisofpersonalincome.TileCHAIDdceisiontreecanprovidea
l0tofhiddeninformationfrom atreemode1.Firstly,tileconstructionofCHAIDdecisiontreeisintroduced
. Thenallexample
aboutpersonalincomeisnaalyzedusingCHAIDdecisiontree.
Keywords CHAID decisiontree Personal income
把国民按收入水平分类,研究各个收入阶层的属性特征,同时研究这些属性特征对个人收
入的影响,这对一个 国家发展措施的制定具有指导作用 。直观上,个人收入水平会受到如地
域、受教育程度、职业、性别等因素的影响,那么它们的影响作用是怎样的?能否构建出一个科
学的评估模型?有些学者采用分类回归村构造该分类模型_】J,但是回归分析要求样本数据集
具有较好的分布规律。有些学者采用灰色关联分析方法 J,但是该方法只是注重分析各个影
响因素之间的相互关系,却不能构造出一个分类规则出来 。而有些学者采用神经网络来分
析 j,这种方法是一种黑箱操作,可控性不是很好。本文是采用 CHAID决策树立方法对该分
类问题进行分析研究,从一个大样本数据集中构造出一个分类模型,其提供一些较好的分类规
则。
决策树方法广泛应用于和分类相关的各种问题,属于有监督的归纳学习算法 J。决策树
从根节点(总数据集)开始,按照某种规则,选择属性进行分裂,再按照某种规则生成子节点;子
* 李俊平 教授推荐
收稿 1]】:2009F5月 19日
数学理论与应用
节点再重复先前步骤,直到达到某种停机准则,从而一棵决策树变生长完毕。
1 决策树分裂与生长过程
1.1 决策树概要
决策树划分规则是采用信息增益最大原理或纯度测量[5],来选择分裂的属性依据;然后是
根据分裂属性如何分裂该父节点来生成子节点,逐层进行,最后生成一个完整的树。所以,树
的生长过程分为两个步骤:第一步是分裂过程,第二步是生长过程。
1.2 a JI)决策树分裂过程
定义 1 设信源 的符号取值集合为A={ ,a:,…,a},其中信号a∈A出现的概率为
P P[X= ],称 ,(a)=一logp为a信息量。信息量的数学期望为信源的平均信息量或信
息熵,记为 (),有:
H(X):~ plogp (1)
决策树分类方法利用信息量增加作为特征选择的一种指标。信息增益衡量每个属
原创力文档


文档评论(0)