- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.数据的价值 审视现有技术,不难发现,所有技术都是以数据为核心。作为用户,我们对富媒体的欲望与日俱增,比如观看的电影和创建并上传到网络的照片和视频。我们也常常在日常生活中,不经意地在网上留下一串数据。 不仅数据总量迅速增加,同时数据的生成速率也在不断增加,从电子邮件到各类型论坛留言,从网上购网记录到网站链接,到处都是不断增长的大数据集。在此背景下,最大的挑战在于,如何从这些数据中提取出有价值的信息。有时是提取特点的数据元素,有时是分析数据间的关系或是判断一种趋势。 2.如何认识大数据 只有在数据足够大的时候,某些问题才变得有意义。例如,在其他影响因素缺少的情况下,基于一个第三人的喜好电影推荐是不可能有意义的。因为没有参考数据,然而当我们的参考样本增加到100时,推荐成功的几率略有上升。而使用1000万人的观看记录,可以大幅提升获得推荐模型的可能性。 我们希望数据的处理工具能够有较低的成本 大规模数据的处理时间能够在我们可以接受的范围内。如果一个系统处理所有到达数据,但是其处理时间以周为计量单位,那么该系统也是不可用的 3.大数据的发展状况 前面讨论的从大数据中提取有价值信息用于改进服务质量的例子,往往属于大型搜索引擎和在线公司的创新模式。这是因为在早期的发展过程中,大数据处理不仅成本高而且实现困难,超出了中小企业的能力范围。 同样,比大数据处理技术应用更为广泛的数据挖掘方法已经存在了很长的一段时间,但是在大型企业和政府部门之外却从来没有真正得到推广使用。但在过去,对于大多数小公司来讲却无关紧要,因为它们的数据量并不多,不需要投入大量的资金来处理这些数据。 然而,到如今,数据量的增加已经不再局限于大型公司,许多中小型企业甚至一些个人收集到的数据也越来越多。他们也意识到这些数据中可能包含在正待发掘的价值 3.1 如何应对越来越多的数据 造成大数据挖掘系统稀有并且昂贵的根本原因是,将现在小型计算机系统扩展我大数据处理系统时非常困难的。正如我们所见,一直以来,数据处理系统的处理能力一直受限于单台计算机的极限计算能力。 随着数据规模的增长,早期出现了两种常用的扩展系统的方法,通常称之为“向上扩展”和“向外扩展”。 向上扩展 在大多数企业,数据处理任务通常由相当昂贵的大型机来执行。随着数据规模的增长,向上扩展的方法就是将数据处理任务迁移到更大的服务器或者存储矩阵。即便以今天的视角来看,这种架构确实有效。但其所增加的成本非常大。 优点:在一定的数据条件下,系统的架构不会随着数据量的增大而发生显著变化,尽管采用了更大型的部件,但部件之间的基本关系却不会变 缺点:单台计算机的处理能力受到现实条件的约束,单一架构的数据处理器规模不可能无限扩大。数据规模大到一定程度时,可能需要定制特殊的处理方式。 向外扩展 向外扩展不通过升级系统的硬件来获得更强的处理能力,而是将数据处理任务分发给越来越多的机器。如果数据集的规模翻倍了,那就使用两台机器来处理,而不是一台有着2倍处理能力的机器。 优点:采购成本低,大型机的采购成本随着处理能力的增长而程指数上涨---如果一台主机的采购成本为5000元,那么一台10被处理能力的主机可能需要100倍的钱。 缺点:向外扩展系统的不足之处需要确定一种策略来把数据处理任务分发给不同的机器,而经验证明具有上述用途的策略异常复杂 制约因素 除大型企业、政府、学术研究机构外,上面的两种方法并没有得到广泛应用,因为系统的采购成本很高,研发和维护这些系统的成本同样很高,所以很难被小型企业所接受,此外这些方法本身的缺陷也随着时间的推移逐步明显。 ◆随着2种系统的扩展,系统并发所带来的系统复杂性问题日益明显,如何有效利用多台主机或多个cpu是一个难题,要想在整个数据处理任务执行期间保持高效运作,需要付出极大的努力 ◆ 通常硬件性能的提升在不同的硬件上表现有很大的差异,如cpu的性能提升远远大于内存和硬盘的性能,所以存储系统提供的数据传输随着时间的推移无法满足cpu所需数据的工作需要 4. 如何选择正确的方式 在某些情况下,工作程度的增量可能会超出现有单台服务器整体向上扩展的能力,这个时候必须使用向外扩展,使用更多的服务器,所以,在极端的情况下,向上扩展架构必然趋势是加入向外扩展。这个时候我们不得不面对的是手工开发跨集群逻辑 优点:减少昂贵的开销,以及单一向外扩展的复杂集群逻辑。 2.2.1 融合架构的正确处理 尽量不共享内容 数据共享会造成多个主机会访问同一块数据导致系统延迟。如多个主机访问的是同一个主机的数据,那么整个系统的性能就会受限于这台关键主机的处理能力,更可怕的是如果这台主机数据失效会导致整个系统瘫痪。所以
文档评论(0)