- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树分类算法在地税征管系统中的研究.pdf
兰
:
ChinaNewTechnologiesandProducts
信 息 技 术
决策树分类算法在地税征管系统中的研究
任 鹤 周连酷
(1、长春工业大学研究生学院 计算机0307班软件理论专业,吉林 长春 130012 2、长春工业大学,吉林 长春 130012)
摘 要:本文将适应于大规模数据的决策树算法SLIQ,SPRINT,RainForest等算法用于地税征管系统的海量税务数据分析,并对各个算法在
可伸缩性 以及并行性等方面进行深入的研究..
关键词:SIIQ;SPRINT;可伸缩性;并行性;地税征管
1引言 对于数值属性和离散属性,SLIQ采用的分类 执行A上的所有可能划分,找 最佳划分将T
在我国税务管理部门计算机技术应用普及的 方案是不同的,具体区别如下: 分为T。和r2;
二t余年中,积累了大量的税务数据。如何揭示这 离 字段,可能的分割是属性值的所有子集, 2.2.4调用spriafformtree(F~);
些业务数据背后隐藏的信息和规律,为税务管理的 即设 s(A)为A的所有可能的值,分裂测试将要取 2.25调用sprintformtreeT(~);
决策支持服务,已经成为税务征管部门的当务之 遍s的所有子集Sl。寻找当分裂成sl和s_S1两 SPRINT算法使用了与SLIQ不同的数据结
急。众所周知,处理大量混乱而又复杂的经验数据 块时的Gini指标,取到Gini最小的时候,就是最佳 构。不使用独立的类表,而是为每个属性建立一个
一 个很好的方法就是分类。与流行的贝叶斯分类、 分裂方法 。 属性表.表项形如属性值,类别,样本序号。连续
神经网络、遗传算法、粗糙集模型等算法相比,决策 数值字段,可能的分裂点是每两个值的中点, 属性的属性表要按属性值预排序;离散属性表则没
树表现出更容易被人理解以及具有很好的分类精 即可以先对数值型字段排序;假设排序后的结果为 有预排序过程。属性表不须常驻内存。在建树过程
确度等特点。因此,我们就利用知识发现中的决策 31个值,因为分裂只会发生在两个节点之间,所以有 中,SPRINT为每个待分裂节点设立—个类直方图。
树方法来对税务数据进行分析,试图为税务人员提 n—1种可能性。通常取中点作为分裂点。从小到大依 连续属性的直方图结构同SLIQ,离散属性的直方
供极具价值的知识。 次取不同的分裂点,取Gini最小的一个就是分裂 图,也称计数矩阵(countmatrix)j,~录了每个不同取
传统决策树的CLS、ID3、C45、CART等算法以 点。 值的样本在各个类别中的个数。当测试条件形成,
及它们的改进算法 主要是针x4d,数据集的,而且 SLIQ包括两种数据结构,即属性表和类表。 节点分裂时,属件表也分裂到新的叶节点中。每个
大都要求 练集常驻内存 (姆I133和C45等),这 suq在初始状态下所有的样本都属于根结点,扫 待分裂的叶节点对应一张属性表 ,SPRINT扫描属
使得传统决策树算法在可伸缩性、精度和效率方面 描训练集为每个属性建立独立的列表,称为属性表 性表寻找最佳分割,计算最佳分割的信息可从相应
受到了很火的限制。而当前用于海量数据挖掘的决 (attributelist),同时建立一个类表(classlist)。属性 的直方图获得,因此计算每次分割至多只需要一张
策树分类算法不仅需要训练数据完全驻留内存并 表的每条记录对应一个训练样本,用于存储样本属 属性表的直方图常驻内存。由于直方图的大小不会
且需要对训练数据集及它的子集进行多次排序,这 性值及在类表中的索引,连续型属性的属性表按照 随属性表的增大而增大,SPRINT算法完全摆脱了
就使得训练数据的规模受
您可能关注的文档
最近下载
- 锰基普鲁士蓝作为钠离子电池正极材料的研究进展.pdf VIP
- 公安个人现实表现材料2篇.doc VIP
- 35kV变电站钢结构安装工程规划与实施.docx
- 2025年江苏省职业院校技能大赛高职组(现代化工HSE技能)参考试题库及答案.docx
- 光伏组件支架及太阳能板安装施工方案完整版.docx VIP
- 中国乳腺癌现状报告.docx VIP
- 人教版英语八年级上册 Unit 9 Can you come to my party 大单元整体学历案教案 教学设计附作业设计(基于新课标教学评一致性).docx VIP
- 基于Grasshopper的城市住宅区室外热舒适度参数化模拟与实测的对比研究.pdf VIP
- (正式版)DB35∕T 2250-2025 《免陪照护病区服务规范》.pdf VIP
- 超声科法律法规试卷含答案.doc VIP
原创力文档


文档评论(0)