- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从数据基因企业数据结构变化
从数据基因看企业数据结构变化 数据基因项目是Veritas 自主发起的一项计划,旨在改变人们对数据管理的看法。Veritas发起该计划,希望为志同道合的数据科学家、行业专家和思想领导者创建一个共同的讨论平台,从而深入了解企业日常创建、存储和管理的非结构化数据的真正本质。作为基于实际存储环境组成的基准测评报告,首份《数据基因指数》报告便是此项计划的首个研究成果。 中国论文网 /1/viewhtm 当前,Veritas研究的重点对象是元数据的特征。通过Veritas的文件分析产品,我们可以利用从各个客户汇集的元数据,准确呈现企业实际数据环境结构的各个细节。 首份 Veritas 数据基因指数报告 为了进一步了解客户数据环境的真正结构,Veritas在2015年分析了来自众多客户非结构化数据环境的数百亿份文件及其属性。本次分析涵盖了8千多种最常见的文件类型扩展名。因此,报告中的数据基本能够代表客户文件系统环境的数据构成。 数据呈爆炸式增长 从文件级别来看,在过去7年中,数据的实际增长速度为每年平均增长39.2481189%, 而相应的存储空间需求增长比创建单个文件增长快9%。因此,尽管操作层面上的改变可以一定程度地控制某些方面的增长,但根本依然是存储管理问题。 控制存储空间并不仅仅是存储问题。现在,存储环境杂乱无章,平均1PB的信息包含了 23.12亿个文件。 增速最快文件类型:图像和开发者文件 企业数据总量表明,数量最多的文件类型和最占空间的文件类型具有明显差异。具体情况可参见图―存储环境与环境成本对照表。 10年前 VS 现今:企业数据的变化 随着时间的推移,数据结构已经发生了巨大变化。过去十年间,相较其他文件类型, 变化最大的文件类型为:演示文稿文件、CAD文件、游戏文件等。 不同季节,企业的数据增长情况也不同 秋季是文件创建的旺季。文本文件的增长率尤为突出,高达91%;其次是地理和信息系统文件,增长率为89%;电子表格的增长率为 48%。 只有备份和文档文件会在秋、冬季激增。在企业完成年度备份后,备份文件将激增756%。但图像文件的创建量明显减少,降幅达63%。此外,68%的视频都创建于夏、秋两季,电子邮件(pst)的情况可预测性高,各季节间只有0.7%的标准偏差。 为何企业还在保留这些数据? 信息是当今企业的关键所在,但由于信息的创建速度过快,企业中有价值的信息转瞬即逝。 治理:数量过多的文件类型 面对海量的陈旧数据,以及在可以执行多个可行处理决策时,为信息管理“决策预算” 的重点划分优先级,无疑能够帮助企业选择文件管理的入手点。 陈旧数据和总数据中数量最多的文件类型中,传统“office”文件是企业巨大的负担。如果企业希望最大限度地节约存储空间成本,但又无法确定优先处理哪些文件类型。那么企业可以重点对以下五大类型文件进行处理,每一类型都能够帮助企业找回GB级的存储空间。 1. 虚拟机文件 2. 安全文件 3. 游戏文件 4. 科技文件 5. 地理位置信息系统文件 文件数量和空间比例失衡 如果企业希望优先处理特定文件类型,只需观察哪些文件类型的数量和空间不成比例。例如,视频文件在陈旧数据存储空间总量中的比例,比其在陈旧文件总量中的比例高15.8 倍。虚拟机文件所占空间为7.3倍,演示文件是6.4倍,电子邮件为2.2倍,这些类型的文件都是企业优先处理的最佳选择。 当员工离职后,留下了数据残局 当数据失去其所有者,即会成为孤立数据。由于职位变更、员工离职以及常用活动目录混乱等原因,企业很难追踪数据环境的传承关系;此外,追踪数据传承需要巨大的资金支持。 孤立数据会占据企业的高额成本,一方面是因为其占据了过量的存储空间。即便孤立数据仅占文件总量的1.6%,但它占据的存储空间却达到了5.1%。不仅如此,大多数孤立数据是内容丰富的数据类型,这类数据所占据的空间都远超正常比例。如图像文件超出正常存储空间的88%,而视频和演示文稿,分别超出165%和229%。 报告调查发现,企业人员流动趋势对存储环境具有一定的影响。孤立文件的大小,是平均文件的222%。数据管理人员可能认为,文件越大,其内容越重要。因此在员工离职后,倾向于继续保留这类密集文件。如果企业希望恢复更多存储空间,从孤立数据下手无疑是首选。 通过存储密度判断文件是否有用 如今,企业创建大密度的内容并不奇怪,但令人吃惊的是,过去7年来,这类内容的涨幅只达到了10.3%,增长相对缓慢。文件的平均大小为:过去10年或更长时间内,使用过的文件的平均大小:0.24MB是过去5年内使用过文件的平均大小:0.40MB是过去1年内修改过文件的平均大小
文档评论(0)