- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智慧审计的七种武器之复杂数据分析.PDF
智慧审计的七种武器之复杂数据分析
(来源:德勤微信公众号,2019-06-04)
一、前言
数据分析已广泛应用于各个领域,很多智能的、深入的、有价值
的信息只有通过深入的数据分析才能获取。毫无疑问,在内部审计中
数据分析同样占据越来越重要的地位。随着企业集成的数据源不断增
多、数据量不断累积、数据更新频率不断加快,传统的数据存储、处
理以及分析技术已捉襟见肘。因此,复杂数据分析能力就显得尤为重
要,它直接影响了最终能否获得有价值的信息。在大数据时代,内部
审计要想有效的履行企业风险控制第三道防线的职能,需紧跟大数据
技术的发展步伐,提升复杂数据分析能力。
二、正文
1、形态
复杂数据分析(Sophisticated Data Analysis),是通过整合各
种功能强大的数据处理工具,以高性能的数据处理方式来采集、整合、
分析复杂数据,并快速从中挖掘出有效信息的能力。企业数据通常来
自于内外部的多个数据源,具有体量大、维度多、更新快、价值密度
低和数据形式多样的特点。其面对的数据库有传统的关系型数据库如
MySQL、Oracle 等,也有适用于处理大量数据的高访问负载以及日志
系统的键值数据库、适用于分布式大数据管理的列存储数据、适用于
Web 应用的文档型数据库和适用于社交网络的图形数据库等非关系型
数据库。可处理的数据类型分为结构化数据,半结构化数据和文本、
1
图像、声音、影视等非结构化数据。
大量的、复杂的数据增加了处理的难度,但同时提供了更大的信
息量。复杂数据分析可以从大量数据中发现其蕴含的模式和规律,进
而产生更多的价值。
2、招式
复杂数据分析所涉及到的技术包括数据采集、数据处理、统计分
析和数据建模。
数据采集
复杂数据分析的数据源可以是传统的内部数据库也可以是来自
网络上的外部数据。内部数据采集可使用SQL 将内部关系型数据库中
的数据提取出来,或使用NoSQL 将分布的、异构数据源中的数据文件
如图片、文本等抽取出来。外部数据采集通常会用到网络爬虫技术,
从web 中获取所需的海量数据,如政府、研究机构或新闻网站上发布
的信息等。数据获取后,对其进行清洗、转换、集成,最后加载到数
据仓库或数据集市中使用。
数据处理
由于复杂数据分析所面对的数据通常体量巨大且形式多样,一般
需要使用到更高性能的计算架构和存储系统。例如在处理用户app 浏
2
览记录等体量巨大的数据时使用分布式计算的MapReduce、Spark 计
算框架可以提升计算能力应对更复杂的数据并减少数据处理时间,使
用分布式文件存储HDFS 进行大规模数据协同工作来提升数据的吞吐
能力和速度。针对非结构化的数据,往往需要对数据进行深入的理解,
并通过复杂数据分析将结构多样、语义多样的非结构化数据进行结构
化处理,提取出可以直接进行分析的数据。例如针对半结构化数据使
用数据抽取(Information Extraction)和处理非结构化数据的自然
语言处理。
统计分析
统计分析是复杂数据分析的常规武器,运用统计方法进行定性和
定量的分析,对研究对象产生更为深刻的认识。主要的分析技术包括:
假设检验(Hypothesis Test)来推断假设是否成立
显著性检验(Significance Test)来检验变量对目标的影响程度
相关分析(Correlation Analysis)来分析变量之间的关系
T 检验(T Test)来比较两组数据是否存在显著差异
其他统计分析方法,如方差分析(ANOVA)等。
数据建模
数据建模是复杂数据分析的核心技术,能从大量数据中通过算法
搜索隐藏于其中的信息。主要的算法包括 分类 (Classification)、
聚类(Clustering)、预测(Prediction)、估计(Estimation)和复
杂数据类型挖掘(text、Web、图形图像、视频、音频等)等,数据
建模可基于用户行为数据实现对人群特征的分类、根据历史数据预测
行业走势和基于对海量的图片深度学习做到对图形图像的识别。
3、实战
3
文档评论(0)