- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
税务系统大集中模式下数据利用思考
税务系统大集中模式下数据利用思考
摘要:税务系统大集中模式下的数据利用是金税三期建设重点,开展数据利用有必要先弄清一些问题的答案,如数据集中后如何进行数据利用?数据利用和数据集中的关系是什么?数据利用的重点和难点在哪里?文章结合天津地税数据利用案例,从业务、技术和管理三个方面进行了回答。
关键词:大集中;税务系统;数据利用;一般利用;深度利用
中图分类号:D922文献标识码:A 文章编号:1674-1145(2009)17-0132-02
随着税务系统信息化的不断发展,金税三期提出:逐步实现涉税电子数据的集中处理和集中管理。数据集中后如何进行数据利用?数据集中和数据利用有何关系?数据利用的重点和难点又在哪里?这些问题可以从三个方面来解答。
一、业务需求
业务需求是开展数据利用的源动力,大集中模式下的数据利用也不例外。当信息化推进到大集中阶段,税务数据被有效地集中起来,随着数据的积累,开展数据利用的需求自然而然地就会被提上议事日程。数据利用从业务需求上可分两类:一般利用和深度利用。
(一)一般利用
长期以来,税务工作中的数据利用主要是一般利用,固定报表是其常见形式,其特征是基于简单计算的原始税收数据展现和对税收现象的一般描述。但是,在大集中之前,税务数据分散于相互独立的系统之中,要想实现精确的、实时的数据利用,大集中是必然的发展途径。
经过多年建设,天津地税完成了覆盖全市税收征、管、查的“津税”工程,系统和数据由市地税局统一维护。“津税”上线以前,各区县地税局使用的软件不统一,数据统计口径也不尽相同,上线之后,建立了集中的数据仓库系统和综合查询系统,各区县地税局可以使用会统分析、考核报表、“一户式”查询等掌握税收进度和纳税人基本信息,实现对税收数据全面、精确、及时的一般利用。
(二)深度利用
随着时间的推移,业务部门将不满足于对数据的一般利用,管理人员会主动向数据要结果,即在海量数据的基础上,运用管理学、统计学等理论建立数学模型,使用数据挖掘等技术,实现税收预测、纳税评估、稽查选案等深度数据利用。可以说,一般数据利用是深度数据利用的基础和前提,深度数据利用是一般数据利用的发展和提高,一般利用直观形象,是被动业务需求,深度利用则复杂抽象,是主动业务需求。
经过多年的数据积累,天津地税开始尝试对税务数据进行深度利用,提出了房地产一体化管理体系。房地产一体化管理是将税务信息、土地房屋信息、建安项目信息结合,深入研究,发现行业纳税规律,建立一套房地产业税收模型。利用这个模型对全市存量房总体把握,结合土地和房屋交易契税情况,以及行业整体盈利水平和平均税负,对全市房地产行业近期税收和远景税收做出预测。这种数据的深度利用要比一般利用在数据模型应用研究的深度与广度方面都上了一个台阶。
二、技术实现
税务系统大集中是并不是简单的数据叠加,其技术实现需要考虑软硬件等多方面问题,如百G级数据的存储和
查询,大并发下的硬件资源,网络带宽层次不齐时数据上下传输等。数据利用是以大集中为基础,除考虑上述问题外,其还有自身的技术重点。
(一)数据梳理
数据利用的首要工作是数据梳理,也叫数据剖析或数据审计,主要是对数据的结构、内容和关系进行分析,提供数据的质量信息。数据梳理的重要性常常被忽视,可以说它是开展数据利用的基础,数据模型的建立、维度的划分、数据的展现等都应从数据梳理开始。如果没有数据梳理,就谈不上数据的一致性和准确性。
如何进行数据梳理?可以从税务数据的不同来源入手梳理,将其分为纳税人、申报、入库、违法违章、发票、票证、稽查、外部等八大部分,然后与业务逐一对照进行梳理,避免数据遗漏。通过数据梳理,我们就能够全面掌握税务信息,展开全方位数据利用。例如利用从征管、契税、个所税全员申报等系统中采集到的个人收入、房产、车船等方面的信息建立“自然人财产和纳税情况监控”,对个人的收入和纳税情况进行综合评估,实现对个人纳税情况的全面监控。
(二)数据清洗
数据梳理之后需要进行数据清洗,因为税务数据是从多个业务系统中抽取,避免不了数据错误和数据冲突,这些数据显然不是我们想要的,称之为“脏数据”。数据清洗的任务就是过滤那些不符合要求的“脏数据”。
数据清洗是ETL过程的重要组成部分,ETL是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
天津地税选择Informatica ETL工具进行数据清洗。其优点在于Informatica
文档评论(0)