基于数据清理技术的税务征收管理系统.docVIP

下载本文档

6
0
约2.92千字
约 5页
2016-11-23 发布于北京
举报
版权申诉

基于数据清理技术的税务征收管理系统.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于数据清理技术的税务征收管理系统.doc

基于数据清理技术的税务征收管理系统　　摘要：随着税务管理信息化的不断拓展与深入，税收数据的积累日益丰富。零散、不直观的数据无法为管理层的统计分析业务提供有效的决策依据。为了解决大型税务数据库信息检索困难、查询效率低的问题，提出了一种基于数据清理技术的数据库优化查询方案。　　关键词：数据清理；字段匹配算法；税务征收　　中图分类号：TP313 文献标识码：A 文章编号：1009-3044（2013）30-6824-03 　　随着计算机技术的飞速发展和国家税务管理信息化的深入，对税收管理部门也提出了更高的标准和要求，随之而来的税务征收事务性工作也加大了许多。如何在税务征收管理中更多使用计算机来替代人的处理，实现大部分税务管理的信息化，已经迫切成为了各级税务部门探索的一个重要研究课题。　　1 原理分析　　税务管理信息化的不断拓展与深入，税收数据的积累日益丰富，零散、不直观的数据无法为管理层的统计分析业务提供有效的决策依据。由于税务管理信息系统与其他的信息管理系统有所区别，主要体现在数据量大，并发数高，响应要快等方面；针对税务征收系统的这些特殊的特点，如何快速地从海量的税务数据库当中把所需要的数据提取出来进行查询、分析、统计已经成为税务部门迫切需要解决的难题。因此我们需要在查询税务系统数据之前要进行一些必要的优化措施，比方对这些税务数据进行数据预处理后，规范数据的内容，尽可能提高这些数据的质量，然后再对我们所使用的查询方式进行必要的优化。数据查询是数据库系统中最基本的一种重要操作。数据库查询优化的最终目的是提高数据库系统的性能，但不同的查询语言的表达式，往往会使查询操作的效率产生较大的差异。　　随着税务信息管理系统信息化的日益深入，税务数据大多已经实现了共享，建立了数据仓库。在建立数据仓库的过程中，需要从各个税务基层部门提取数据，由于税务数据来源的多样性，发生错误的概率同样也存在多样性。具体体现在以下方面：一、数据不完整，部分重要、关键信息的缺失。二、数据错误，由于早期的业务系统不够健全，没有对输入数据进行逻辑判断而直接输入后，出现一些不符合逻辑的数据，由此产生了部分“脏数据”。脏数据的一些典型特征是如纳税人年龄明显不符常规，日期当中有乱码等一些不符合规则的数据。　　2 数据预处理　　因为税务系统数据来源的多样性，由此产生了一部分脏数据。这样我们就需要对税务数据提前进行预处理。把一些明显的不符常规的数据，通过一定的规则进行处理成规则的数据。这一阶段的主要任务是尽量发现和纠正原始记录的各种类型的错误。任务如下：利用规则库中的分类规则进行字段类型的分类，并确定该字段的意义；利用字段之间的语义规则解决等价的错误；利用依赖关系，纠正了数据类型字段的拼写；全角半角标准化的数据格式，主要用于日期、性别、货币等字段类型。把数据进行预处理后，原来的记录中许多错误可以得到纠正，并尽可能的把相似重复记录聚集在一起[1-2]。　　3 相似重复记录检测　　国内外研究检测相似重复记录的技术也很多，文献[3-7]阐述了相似重复记录的检测过程及其方法。文献[8]对cure算法进行了改进，在随机抽样之前通过对数据集进行预抽样确定数据集中相似重复记录的大致分布，从而提高随机抽样的合理性。相似重复记录检测是数据清理中的一个重要步骤，通过相似重复数据检测，可以判断两个数据是不是相似重复数据。　　随着计算机技术的迅猛发展，产生了各种海量的信息数据。数据清理、查询优化等技术的应用都正处于快速发展的阶段。这些技术的广泛应用，都需要有高质量的数据作为支撑。　　对于第一类情况可以采用分割的方法，把混合字段分割成英文、中文、数字。如两个地址字段的组合：南京市赤壁路18号A座801室和南京市鼓楼区赤壁路18号A座809室，自然分割后：南京市赤壁路号座室和南京市鼓楼区赤壁路号座室，18A801和18A809，再分别对它们进行比较。　　对于第二类字段组合情况，可以按照英文和数字的组词规则，分别把英文和数字分割为合适的英文串和数字串，然后再对两个串进行两字段相似度比较。　　对于第三类字段组合情况，可以按照汉字和数字的组词规则，分别把汉字和数字分割为合适的汉字串和数字串，然后再对两个串进行两字段相似度比较。　　4 实验分析　　本次实验采用六组不同的税务数据集，每组数据集中都含有部分相似重复的个体数据，如表1所示。表A中列的数据和表B中列的数据作为对比字段，检测两表中的数据相似重复性。系统运行在计算机工作站上，计算机工作站的硬件配置CPU P4 2.0 G，2G 内存；操作系统为 Windows Server 2000。测试指标和实验结果如图2所示，其中横轴为数据分组。从图2中可以看出通过字符匹配算法较好的检测了数据表中数据的相似重复