- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
审计全覆盖中大数据技术应用
审计全覆盖中大数据技术应用
此次研究将理论与实务有效融合,以医保审计为例,在其间应用Hadoop、云计算等技术,对以往软硬件技术处理大量数量慢、错误率高等问题予以解决,大幅提升了审计质量及效率。并且,还通过运用跨行业数据关联、聚类等大数据挖掘技术,对审计组开展工作提供帮助,有效改进了工作效率,不但给审计全覆盖给予了技术支撑,也为日后大数据审计的实施给予了新思路。
伴同我国社会经济的迅猛发展以及改革的持续深化,便需对公共、国有资产与国有资源等落实经济责任的状况实施审计全覆盖。但实际上,实施审计全覆盖具有较大困难,其所应对的最大问题即需针对各大行业海量数据信息、图片等加以处理,如此便对当前的审计技术运用、数据收集等带来了较大抨击。在此形势下,经由应用大数据技术便可将上述问题有效处理,其不但与大数据时代发展需求相符,也属于执行党中央、国务院有关强化审计监督的关键。基于此,针对审计实务里面大数据技术的应用予以研讨具备显著的学术及运用价值。此次研究把计算机、审计学等相应理论和审计实务有效衔接,将大数据技术引进到医保审计中,显著改善了审计质量与效率,给大数据时代下审计工作的实施给予了新路径。
一、创设医保审计大数据体系
当前,医保大数据审计需解决的最大难题即数据量巨大。为处理以往设备和方式收集难度大、资源损耗严重、数据处理分析效率不高等问题,此次研究应用Hadoop框架,构建形成了医保审计大数据体系。
借助Hadoop集群技术以增强数据处理水平。依照审计署要求与医保审计实际需求,此次研究对湖南省人社、卫计、民政与公积金四大部门设计了23张标准表,对医保、新农合等部门数据加以采集,合计7TB。如此庞大的数据量借助以往的审计方式难以实施,加之医保审计时间紧张、收集整理与分析任务繁重,故强化数据处理能力便成为了建设基础设施层的关键。
Hadoop属于以Java为基础构建形成的开源软件框架,主要是位于较多计算机构成的集群里面针对庞大的数据信息加以存储、实施分布式计算。其意义在于由单一的服务器扩张至数千台机器,所有单台机均能够实施本地计算与存储。该框架的优势即成本投入不高,用户不受限制,不但可对大规模数据予以处理,还可以对程序员工作进行精简,达成计算调度管理、负载均衡等目的。同?r,该框架的主要设计即分布式文件系统( HDFS)与计算框架( MapReduce),前者主要适用到存储大量数据的计算中。
在医保审计里面先施行模拟压力测试,经由当前数据加以复制、更改,模拟当地预期数据量,对服务器数据承载和计算压力予以测试,依照结果借助Hadoop集群技术创设服务器集群,以处理海量数据分析效率不高的问题。结果表明,把5台容量为512G的服务器经由Hadoop集群技术整合为1台服务器,其处理数据的能力较之单台服务器要上涨5倍。
借助分布式文件系统以强化数据容错能力。针对湖南省医保数据收集期间,由于各区域应用系统众多且匮乏统一性,故依照分级采集市州汇总原则开展工作。抽取汇总上报数据统一创设数据库期间,假设选择以往关系数据库的文件存储方法,则一旦某一数据错误,那么便应编写语句针对整个数据库实施错误数据删除,不但耗时且操作繁琐。故而,为对数据容错能力较差的情况予以处理,此次研究将选择分布式文件系统(HDFS)为底层结构。其主要用于大量数据的分布式存储,能把较多计算机借助通信网络整合,在统一管理系统的控制下,协同达成大规模数据处理任务。并且,其在文件存储写入期间,把文件划分为文件块,分散存储于所有子节点主机中,但文件基础信息依旧存储于主节点,其优势即易拓展、容错性好、经济适用性高。通过HDFS把百余个区域的数据依照行政区域代码自主分布存储于4台子节点服务器中,且基于此产生若干副本,假设其间某一数据发生错误,则其他副本经由便捷操作能及时恢复。
借助达梦数据库与Hive数据仓库处理工具以改善数据采集加载效率。对大量医保数据抽取加载期间,为处理以往的关系数据库仅能将数据存储于服务器本地的文件系统、无法应用HDFS处理大量数据与审计工作者习惯选择SOL分析数据等问题,此次研究尝试选择Hive集成国产达梦软件创设数据仓库。
Hive是以Hadoop为基础构建形成的数据仓库处理工具,在数据提取加载(ETL)方面极为便捷,是一项能够存储、查询与分析存储于Hadoop分布式文件系统里面的大数据机制。尽管较之关系数据库而言,其具有扩张自身存储性能的作用,以及较好的计算能力,然而在面向大量数据运用时,数据挖掘、实效性不足,故此次研究应用国产关系数据库达梦软件集成应用。
Hive达成了医保数据的迅速分布式存储,然而其间如果存储表、字段名等元数据信息需持续更新、变动,因分布式文件系统里面的数据以多读少改为主,故无法把元数据
文档评论(0)