决策树分类算法在地税征管系统中的研究.pdfVIP

决策树分类算法在地税征管系统中的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树分类算法在地税征管系统中的研究.pdf

兰 : ChinaNewTechnologiesandProducts 信 息 技 术 决策树分类算法在地税征管系统中的研究 任 鹤 周连酷 (1、长春工业大学研究生学院 计算机0307班软件理论专业,吉林 长春 130012 2、长春工业大学,吉林 长春 130012) 摘 要:本文将适应于大规模数据的决策树算法SLIQ,SPRINT,RainForest等算法用于地税征管系统的海量税务数据分析,并对各个算法在 可伸缩性 以及并行性等方面进行深入的研究.. 关键词:SIIQ;SPRINT;可伸缩性;并行性;地税征管 1引言 对于数值属性和离散属性,SLIQ采用的分类 执行A上的所有可能划分,找 最佳划分将T 在我国税务管理部门计算机技术应用普及的 方案是不同的,具体区别如下: 分为T。和r2; 二t余年中,积累了大量的税务数据。如何揭示这 离 字段,可能的分割是属性值的所有子集, 2.2.4调用spriafformtree(F~); 些业务数据背后隐藏的信息和规律,为税务管理的 即设 s(A)为A的所有可能的值,分裂测试将要取 2.25调用sprintformtreeT(~); 决策支持服务,已经成为税务征管部门的当务之 遍s的所有子集Sl。寻找当分裂成sl和s_S1两 SPRINT算法使用了与SLIQ不同的数据结 急。众所周知,处理大量混乱而又复杂的经验数据 块时的Gini指标,取到Gini最小的时候,就是最佳 构。不使用独立的类表,而是为每个属性建立一个 一 个很好的方法就是分类。与流行的贝叶斯分类、 分裂方法 。 属性表.表项形如属性值,类别,样本序号。连续 神经网络、遗传算法、粗糙集模型等算法相比,决策 数值字段,可能的分裂点是每两个值的中点, 属性的属性表要按属性值预排序;离散属性表则没 树表现出更容易被人理解以及具有很好的分类精 即可以先对数值型字段排序;假设排序后的结果为 有预排序过程。属性表不须常驻内存。在建树过程 确度等特点。因此,我们就利用知识发现中的决策 31个值,因为分裂只会发生在两个节点之间,所以有 中,SPRINT为每个待分裂节点设立—个类直方图。 树方法来对税务数据进行分析,试图为税务人员提 n—1种可能性。通常取中点作为分裂点。从小到大依 连续属性的直方图结构同SLIQ,离散属性的直方 供极具价值的知识。 次取不同的分裂点,取Gini最小的一个就是分裂 图,也称计数矩阵(countmatrix)j,~录了每个不同取 传统决策树的CLS、ID3、C45、CART等算法以 点。 值的样本在各个类别中的个数。当测试条件形成, 及它们的改进算法 主要是针x4d,数据集的,而且 SLIQ包括两种数据结构,即属性表和类表。 节点分裂时,属件表也分裂到新的叶节点中。每个 大都要求 练集常驻内存 (姆I133和C45等),这 suq在初始状态下所有的样本都属于根结点,扫 待分裂的叶节点对应一张属性表 ,SPRINT扫描属 使得传统决策树算法在可伸缩性、精度和效率方面 描训练集为每个属性建立独立的列表,称为属性表 性表寻找最佳分割,计算最佳分割的信息可从相应 受到了很火的限制。而当前用于海量数据挖掘的决 (attributelist),同时建立一个类表(classlist)。属性 的直方图获得,因此计算每次分割至多只需要一张 策树分类算法不仅需要训练数据完全驻留内存并 表的每条记录对应一个训练样本,用于存储样本属 属性表的直方图常驻内存。由于直方图的大小不会 且需要对训练数据集及它的子集进行多次排序,这 性值及在类表中的索引,连续型属性的属性表按照 随属性表的增大而增大,SPRINT算法完全摆脱了 就使得训练数据的规模受

文档评论(0)

我是小泥巴 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档