海量数据存储、访问与管理.docVIP

下载本文档

5
0
约7.41千字
约 11页
2018-06-19 发布于河南
举报
版权申诉

海量数据存储、访问与管理.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

海量数据存储、访问与管理

海量数据存储、访问与管理随着信息化程度的提高，数据已超出它原始的范畴，它包含各种业务操作数据、报表统计数据、办公文档、电子邮件、超文本、表格、报告以及图片、音视频等各种数据信息。人们用海量数据来形容巨大的、空前浩瀚的、还在不断增长的数据。　　海量数据是当今商业面对的一个现实。任何一个企业都在面对其企业数据库由于规模扩大产生的沉重负担，提高海量数据访问能力和业务分析能力的要求也变得越来越迫切。　　· 数据爆炸。如今，需要企业进行管理的数据正在以指数级速度增长。分析人员发现，公司收集、存储和分析的有关客户、财务、产品和运营的数据，其增长率达125% 之多。各个方面的因素导致了数据的爆炸，如：网络应用增加了数据的增长速度；监控点击流需要存储与以往相比越来越多的不同的数据类型；多媒体数据也增加了对存储的要求；我们存储并管理的不仅仅是数字和文字，还有视频、音频、图像、临时数据以及更多内容，这些数据的增长速度也在不断地上升；数据仓库和数据挖掘应用鼓励企业存储越来越长的时间段内越来越多的数据。这些实际情况导致的结果就是数据大量增加。　　· 法规方面的要求。在会计丑闻的唤醒下，立法者和决策人施加了严格的新要求，几乎影响到全球各家大型企业。法案要求公共公司遵守严格的金融记录保持与报告法规。如果公司不能及时、可靠地访问准确的财务信息，那么它们将面临罚款、调查、起诉、甚至更严厉的股东信心下降的威胁。这要求公司能提供对更多数据的不间断访问能力并进行更多的分析，这必然会延长数据的维护周期，增加数据容量。　　· 非结构化数据应用的需要。结构化数据是指诸如企业财务账目、客户信息、业务操作数据等具有明显结构化特性的数据。非结构化数据包括扫描文档图像、传真、照片、计算机生成的报告、字处理文档、电子表格、演示文稿、语音和视频片段等。根据业界分析报告，非结构化数据占有整个信息量的85%以上，数据量及其庞大，是信息资源管理的核心。同样，企业需要对非结构化数据进行存储、检索、过滤、提取、挖掘、分析等各方面应用。　　· 历史数据归档与访问的需要。一般来说业务系统是用来处理业务交易的，为了使这些关键业务系统的性能不会受到严重影响，往往业务系统只存放短周期内的业务交易数据，大量的历史数据都被备份到磁带上，或者被转移到其他存储设备上静态保存，当对它们运行SQL 查询时再把它们从档案环境中恢复出来。但是随着企业对数据的重要性越来越重视，以及数据分析、数据挖掘的应用逐渐普及，历史数据的访问将变得重要、频繁和直接。历史数据的不断积累，也对海量数据的存储、管理和访问提出了新的需求。　　· 数据整合与数据分析的需要。当前，企业信息的存放具有数据结构多元化、存储异构化的特点，企业的数据可能存储在传统系统、大型数据仓库或具有计费、订购、制造、分销或其他功能的数据运营孤岛上，因此会给访问带来极大的困难。数据整合与数据分析已经成为信息管理技术的应用热点。只有在有效的数据整合基础上，才能消除信息孤岛，降低有效信息获取的难度，通过对整合数据的分析和加工来获得制定策略所必需的信息依据。　　　　传统的关系型数据库面临更大的挑战　　　　传统的关系型数据库在计算机数据管理的发展史上是一个重要的里程碑，这种数据库具有数据结构化、最低冗余度、较高的程序与数据独立性、易于扩充、易于编制应用程序等优点，目前较大的信息系统都是建立在结构化数据库设计之上的。　　然而，随着越来越多企业海量数据的产生，特别是Internet和Intranet技术的发展，使得非结构化数据的应用日趋扩大，以及对海量数据快速访问、有效的备份恢复机制、实时数据分析等等的需求，传统的关系数据库从1970年发展至今，虽功能日趋完善，但在应对海量数据处理上仍有许多不足。　　缺乏对海量数据的快速访问能力　　当你的竞争对手在周五下午宣布了新的价格体系，你所在机构的总裁在周一早晨之前想要一份对你公司有何影响的分析报告，业务分析员想做的最后一件事情是花费20分钟等待整个表扫描和多表连接来获得“如果……会怎么样”的查询。因为没有经过优化的查询会耗费很长的时间；进行查询的用户，其需求需要按计划执行；多个查询会竞争CPU资源；并且业务需求经常被改变。所有这些都要求不断调整优化数据库或甚至重新设计数据库。　　缺乏海量数据访问灵活性　　在现实情况中，用户在查询时希望具有极大的灵活性。用户可以提任何问题，可以针对任何数据提问题，可以在任何时间提问题。无论提的是什么问题，都能快速得到回答。传统的数据库不能够提供灵活的解决方法，不能对随机性的查询做出快速响应，因为它需要等待系统管理人员对特殊查询进行调优，这导致很多公司不具备这种快速反应能力。　　对非结构化数据处理能力薄弱　　传统的关系型数据库对数据类型的