决策树分类算法在地税征管系统中的研究.pdfVIP

下载本文档

6
0
约 2页
2017-09-01 发布于湖北
举报
版权申诉

决策树分类算法在地税征管系统中的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

决策树分类算法在地税征管系统中的研究.pdf

兰： ChinaNewTechnologiesandProducts 信息技术决策树分类算法在地税征管系统中的研究任鹤周连酷 (1、长春工业大学研究生学院计算机0307班软件理论专业，吉林长春 130012 2、长春工业大学，吉林长春 130012) 摘要：本文将适应于大规模数据的决策树算法SLIQ，SPRINT，RainForest等算法用于地税征管系统的海量税务数据分析，并对各个算法在可伸缩性以及并行性等方面进行深入的研究．．关键词：SIIQ；SPRINT；可伸缩性；并行性；地税征管 1引言对于数值属性和离散属性，SLIQ采用的分类执行A上的所有可能划分，找最佳划分将T 在我国税务管理部门计算机技术应用普及的方案是不同的，具体区别如下：分为T。和r2；二t余年中，积累了大量的税务数据。如何揭示这离字段，可能的分割是属性值的所有子集， 2．2．4调用spriafformtree(F~)；些业务数据背后隐藏的信息和规律，为税务管理的即设 s(A)为A的所有可能的值，分裂测试将要取 2．25调用sprintformtreeT(~)；决策支持服务，已经成为税务征管部门的当务之遍s的所有子集Sl。寻找当分裂成sl和s_S1两 SPRINT算法使用了与SLIQ不同的数据结急。众所周知，处理大量混乱而又复杂的经验数据块时的Gini指标，取到Gini最小的时候，就是最佳构。不使用独立的类表，而是为每个属性建立一个一个很好的方法就是分类。与流行的贝叶斯分类、分裂方法。属性表．表项形如属性值，类别，样本序号。连续神经网络、遗传算法、粗糙集模型等算法相比，决策数值字段，可能的分裂点是每两个值的中点，属性的属性表要按属性值预排序；离散属性表则没树表现出更容易被人理解以及具有很好的分类精即可以先对数值型字段排序；假设排序后的结果为有预排序过程。属性表不须常驻内存。在建树过程确度等特点。因此，我们就利用知识发现中的决策 31个值，因为分裂只会发生在两个节点之间，所以有中，SPRINT为每个待分裂节点设立—个类直方图。树方法来对税务数据进行分析，试图为税务人员提 n—1种可能性。通常取中点作为分裂点。从小到大依连续属性的直方图结构同SLIQ，离散属性的直方供极具价值的知识。次取不同的分裂点，取Gini最小的一个就是分裂图，也称计数矩阵(countmatrix)j,~录了每个不同取传统决策树的CLS、ID3、C45、CART等算法以点。值的样本在各个类别中的个数。当测试条件形成，及它们的改进算法主要是针x4d,数据集的，而且 SLIQ包括两种数据结构，即属性表和类表。节点分裂时，属件表也分裂到新的叶节点中。每个大都要求练集常驻内存 (姆I133和C45等)，这 suq在初始状态下所有的样本都属于根结点，扫待分裂的叶节点对应一张属性表，SPRINT扫描属使得传统决策树算法在可伸缩性、精度和效率方面描训练集为每个属性建立独立的列表，称为属性表性表寻找最佳分割，计算最佳分割的信息可从相应受到了很火的限制。而当前用于海量数据挖掘的决 (attributelist)，同时建立一个类表(classlist)。属性的直方图获得，因此计算每次分割至多只需要一张策树分类算法不仅需要训练数据完全驻留内存并表的每条记录对应一个训练样本，用于存储样本属属性表的直方图常驻内存。由于直方图的大小不会且需要对训练数据集及它的子集进行多次排序，这性值及在类表中的索引，连续型属性的属性表按照随属性表的增大而增大，SPRINT算法完全摆脱了就使得训练数据的规模受