智慧审计的七种武器之复杂数据分析.PDFVIP

智慧审计的七种武器之复杂数据分析.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智慧审计的七种武器之复杂数据分析.PDF

智慧审计的七种武器之复杂数据分析 (来源:德勤微信公众号,2019-06-04) 一、前言 数据分析已广泛应用于各个领域,很多智能的、深入的、有价值 的信息只有通过深入的数据分析才能获取。毫无疑问,在内部审计中 数据分析同样占据越来越重要的地位。随着企业集成的数据源不断增 多、数据量不断累积、数据更新频率不断加快,传统的数据存储、处 理以及分析技术已捉襟见肘。因此,复杂数据分析能力就显得尤为重 要,它直接影响了最终能否获得有价值的信息。在大数据时代,内部 审计要想有效的履行企业风险控制第三道防线的职能,需紧跟大数据 技术的发展步伐,提升复杂数据分析能力。 二、正文 1、形态 复杂数据分析(Sophisticated Data Analysis),是通过整合各 种功能强大的数据处理工具,以高性能的数据处理方式来采集、整合、 分析复杂数据,并快速从中挖掘出有效信息的能力。企业数据通常来 自于内外部的多个数据源,具有体量大、维度多、更新快、价值密度 低和数据形式多样的特点。其面对的数据库有传统的关系型数据库如 MySQL、Oracle 等,也有适用于处理大量数据的高访问负载以及日志 系统的键值数据库、适用于分布式大数据管理的列存储数据、适用于 Web 应用的文档型数据库和适用于社交网络的图形数据库等非关系型 数据库。可处理的数据类型分为结构化数据,半结构化数据和文本、 1 图像、声音、影视等非结构化数据。 大量的、复杂的数据增加了处理的难度,但同时提供了更大的信 息量。复杂数据分析可以从大量数据中发现其蕴含的模式和规律,进 而产生更多的价值。 2、招式 复杂数据分析所涉及到的技术包括数据采集、数据处理、统计分 析和数据建模。 数据采集 复杂数据分析的数据源可以是传统的内部数据库也可以是来自 网络上的外部数据。内部数据采集可使用SQL 将内部关系型数据库中 的数据提取出来,或使用NoSQL 将分布的、异构数据源中的数据文件 如图片、文本等抽取出来。外部数据采集通常会用到网络爬虫技术, 从web 中获取所需的海量数据,如政府、研究机构或新闻网站上发布 的信息等。数据获取后,对其进行清洗、转换、集成,最后加载到数 据仓库或数据集市中使用。 数据处理 由于复杂数据分析所面对的数据通常体量巨大且形式多样,一般 需要使用到更高性能的计算架构和存储系统。例如在处理用户app 浏 2 览记录等体量巨大的数据时使用分布式计算的MapReduce、Spark 计 算框架可以提升计算能力应对更复杂的数据并减少数据处理时间,使 用分布式文件存储HDFS 进行大规模数据协同工作来提升数据的吞吐 能力和速度。针对非结构化的数据,往往需要对数据进行深入的理解, 并通过复杂数据分析将结构多样、语义多样的非结构化数据进行结构 化处理,提取出可以直接进行分析的数据。例如针对半结构化数据使 用数据抽取(Information Extraction)和处理非结构化数据的自然 语言处理。 统计分析 统计分析是复杂数据分析的常规武器,运用统计方法进行定性和 定量的分析,对研究对象产生更为深刻的认识。主要的分析技术包括:  假设检验(Hypothesis Test)来推断假设是否成立  显著性检验(Significance Test)来检验变量对目标的影响程度  相关分析(Correlation Analysis)来分析变量之间的关系  T 检验(T Test)来比较两组数据是否存在显著差异  其他统计分析方法,如方差分析(ANOVA)等。 数据建模 数据建模是复杂数据分析的核心技术,能从大量数据中通过算法 搜索隐藏于其中的信息。主要的算法包括 分类 (Classification)、 聚类(Clustering)、预测(Prediction)、估计(Estimation)和复 杂数据类型挖掘(text、Web、图形图像、视频、音频等)等,数据 建模可基于用户行为数据实现对人群特征的分类、根据历史数据预测 行业走势和基于对海量的图片深度学习做到对图形图像的识别。 3、实战 3

文档评论(0)

zhongshanmen002 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档