数据在数据仓库中该保留多长时.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据在数据仓库中该保留多长时.doc

数据在数据仓库中该保留多长时   我们是否需要强制规定保留数据?如果答案是肯定的,那么我们需要保留多长时间?或者,我们是否应该在数据已经失去价值的情况下,将其销毁以降低泄露的风险?我们又如何能够得知数据已经得到了妥善保管,以阻止入侵者接触到它们?关于是否应该无限期保存数据的争论有两个对立面。最后将具体到保留的数据类型、保留数据的目的与用途,以及数据泄露造成的风险。   在美国,你需要保留最近七年的财务数据以备税务局审核。但是你的业务数据或者个人数据是否存在这么一个硬性的保留期限呢?随着数据量的不断增加,这个问题变得越来越难以回答,同时也为数据管理带来了更多挑战。   数据掌控在业务高管、企业负责人以及IT管理者手中,他们有足够的理由希望存储更多的数据。从数据中发现新亮点这足以诱惑人们增加存储的数据量。但是,有些人也认为,大量存储的数据已经不仅是简单的经济成本问题,它们也带来了风险成本。我们是否需要强制规定保留数据?如果答案是肯定的,那么我们需要保留多长时间?或者,我们是否应该在数据已经失去价值的情况下,将其销毁以降低泄露的风险?我们又如何能够得知数据已经得到了妥善保管,以阻止入侵者接触到它们?   数据长期存储的经济学   现在,我们来考虑一下长期存储大量数据的经济学问题。搜索关键字“硬盘存储的高昂费用”,就会找到2009年的几个数据,在内部系统中每GB每个月的存储成本是25美元,相当于25000美元/TB,而将10TB数据存储五年的总体拥有成本将近1亿美元。但今天,在亚马逊上存储10TB数据的成本则是每月300美元。   现在我们用杰文斯悖论来整体分析云存储或者云计算。存储成本的降低会提升使用量。低成本的分布计算资源加上低成本、供应量充足的硬盘和类似Hadoop的开源软件,2020年,预计大数据存储市场的规模将达到500亿美元。   信息生命周期管理   还有人记得信息生命周期管理这个缩写为ILM的名词吗?在2004年的时候,主要的存储供应商都在推动ILM战略,以帮助存储管理员通过存储层级方式降低存储的整体成本。关键数据可以用高可用性的冗余技术存储,而比较陈旧的数据则以比较低的服务等级进行低成本存储。按照数据的价值规划在基础架构方面的投入,从而降低总体成本。   实施ILM需要部署一套数据分类系统,以根据元数据及业务规范来标记数据集,并且随着时间的推移随时对变化进行监控。业务词汇和元数据管理工具同数据集成和转移技术结合在一起,帮助数据从业务处理数据库转移至数据仓库、分析数据库,以及类似Hadoop的开源平台。   并不是所有人都需要从历史中获取经验,然而历史数据给大数据、数据仓库、数据保存这一主题带来了一个重要的背景。Cloudera的创始人――Amr Awadallah在他关于大数据新用例的博客中,并没有将关注点放在成本上,而是说明了如何利用Hadoop来实现活动归档。他的观点是:并不是所有的数据都在分析数据库中占据重要位置。细节、琐碎的数据可以以低成本的方式存储在Hadoop上。   关于无限期保存数据的争论   数据分析师现在能够以几乎零成本的方式存储海量的历史细节数据,但是历史数据的数量会减少未来数据的存储空间。Salesforce CEO Marc Benioff在 2014 Dreamforce上说:“世界上90%的数据都是在过去两年内创建的。”可以想象未来的数据量会有多可怕。   历史数据在探索行为模式的时候能够提供背景。验证猜想的时候,完备的数据对于检测预测模型具有相当大的价值。存储不再只考虑成本。如果你观察Hadoop和它的客户案例――DataKind(一个致力于在善意的数据科学家和寻求公益活动帮助的团队之间建立联系的非营利组织)如何利用数据来进行人道主义服务的话,主张永久保留数据的呼声会非常高。受益于数据,我们以商业与医学的方式改变着我们的世界。   关于强制限制保存数据的争论   想通过分析获得价值的人们希望能够将数据永久保存,这是故事的另一面。随着数据容量的增加,数据盗窃和数字犯罪的数量和严重性也在不断增加。首席数据官希望能够自由接触数据、首席信息安全官希望能够保护数据不受操作失误的威胁。安全人员和记录保存管理人员正是出于这一原因,对当前数据和记录的保存事项进行优缺点分析。   作为美国联邦健康保险交换系统的核心,Healthcare.gov管理着政府数据仓库,其中保存着数以百万计的个人信息。目前这个被称为MIDAS的系统以无限期的方式保存着所有数据。合众社的一篇文章曾经提到,数据仓库中存储的数据类型引起了越来越大的担忧,这些信息可以被用来进行身份窃取、保险欺诈和税务欺诈。   今年,白宫任命了历史上第一位首席数据分析师――DJ Patel,他的职责之一就是负

文档评论(0)

lmother_lt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档