大数据与审计.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据与审计概述 马西涛 目录 1.信息技术的相关背景知识 2.大数据的由来及技术体系 3.大数据在审计中的应用 4.关于大数据审计的几点建议 信息化变革 发生时间 标志 解决问题 代表企业 第一次变革 1980年前后 个人计算机 数据处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次变革 1995年前后 互联网 数据传输 雅虎、谷歌、阿里巴巴、百度、腾讯等 第三次变革 2010年前后 物联网、云计算和大数据 数据存储 ARM,高通,通用电气,思科,华为,海尔,大唐电信 信息化技术发展的三次变革 数据的度 计算机中数据大小的表示 1Byte = 8 Bit (=bps) 1KB = 1,024 Bytes 1MB = 1,024 KB = 1,048,576 Bytes 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes 1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes 数据的量 在2006年个人PC迈入TB,全球产生数据总量为180EB(0.18ZB) 在2010年时,全球数据总量增加到了1.8ZB 据预计到2020年,全球将总共拥有44ZB的数据量 我国将达到8ZB,占全球总量的18% 大数据起源(Big Data) 2008年9月《科学》(Science)杂志发表了一篇文章“BigData: Science in the Petabyte Era”,从此“大数据”这个词开始广泛传播 所谓大数据,泛指规模达到PB级,包含结构化、非结构化以及半结构化数据集合,如文本、图像、声音、视频等。 大数据4V特征 结构化数据、半结构化数据和非结构化数据 如今的数据类型早已不是单一的文本形式,网络日志、 音频、视频、图片、地理位置信息等,对数据的处理 能力提出了更高要求 数据更新速度快 据统计,淘宝每日的数据量约在10万G左右,百度搜索每日的搜索量达70亿次,新浪微博每日更新数达5千万次,人人网的每日访问量达4亿次。 数据量巨大 全球在2010 年正式进入ZB 时代,预计到 2020 年,全球将总共拥有44ZB 的数据量 沙里淘金,价值密度低 虽然数据量很大,但是价值密度较低。通过强大的机器算法更迅速地完成数据价值“提纯”,是目前 大数据亟待解决的难题 1. 海量(Volume) 3.速度( Velocity) 4. 价值(value) 2. 多样(Variety) 8 大数据的定义 定义 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 ——维基百科 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ——百度百科 google的三大论文(三驾马车) Google公开的三篇论文(2003,2004,2006) The Google File System 分布式文件存储系统 MapReduce:Simplified Data Processing on Large Clusters 分布式并行计算 Bigtable:A Distributed Storage System for Structured Data 分布式数据库 Hadoop的诞生 Hadoop之父Doug Cutting Doug Cutting 根据Google公开的三篇论文思想,以JAVA语言,实现了论文中关于分布式存储、分布式并行计算的机制,由此开启了大数据应用的新时代 大数据核心技术 分布式存储 分布式处理 MapReduce 大数据 HDFS HADOOP的体系结构 Ambari (安装、部署配置和管理工具) HDFS 分布式文件管理系统 MapperReduce2/Yarn Hive 数据仓库 Pig 数据流处理 Mahout 数据挖掘 Zookeeper

文档评论(0)

Epiphany + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档