- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
如何打造高性能大数据分析平台
大数据分析系统作为一个关键性的系统在各个公司迅速崛起 但是这种海量规模的数据带来
了前所未有的性能挑战。同时 如果大数据分析系统无法在第一时间为运营决策提供关键
数据 那么这样的大数据分析系统一文不值。本文将从技术无关的角度讨论一些提高性能的
方法。下面我们将讨论一些能够应用在大数据分析系统不同阶段的技巧和准则(例如数据提取
数据清洗 处理 存储 以及介绍)。本文应作为一个通用准则 以确保最终的大数据分析
平台能满足性能要求。
1.大数据是什么?
大数据是最近IT 界最常用的术语之一。然而对大数据的定义也不尽相同 所有已知的论点例如结构
化的和非结构化、大规模的数据等等都不够完整。大数据系统通常被认为具有数据的五个主要特征
通常称为数据的5 V s。分别是大规模 多样性 高效性、准确性和价值性。
据Gart ner称 大规模可以被定义为“在本(地)机数据采集和处理技术能力不足以为用户带来商业价值
。当现有的技术能够针对性的进行改造后来处理这种规模的数据就可以说是一个成功的大数据解决
方案。
这种大规模的数据没将不仅仅是来自于现有的数据源 同时也会来自于一些新兴的数据源 例如常
规(手持、工业)设备 日志 汽车等 当然包括结构化的和非结构化的数据。
据Gart ner称 多样性可以定义如下 :“高度变异的信息资产 在生产和消费时不进行严格定义的包
括多种形式、类型和结构的组合。同时还包括以前的历史数据 由于技术的变革历史数据同样也成
为多样性数据之一 “。
高效性可以被定义为来自不同源的数据到达的速度。从各种设备 传感器和其他有组织和无组织的
数据流都在不断进入IT 系统。由此 实时分析和对于该数据的解释(展示)的能力也应该随之增加。
根据Gart ner 高效性可以被定义如下 :“高速的数据流I/O (生产和消费) 但主要聚焦在一个数据集
内或多个数据集之间的数据生产的速率可变上”。
准确性 或真实性或叫做精度是数据的另一个重要组成方面。要做出正确的商业决策 当务之急是
在数据上进行的所有分析必须是正确和准确(精确)的。
大数据系统可以提供巨大的商业价值。像电信 金融 电子商务 社交媒体等 已经认识到他们的
数据是一个潜在的巨大的商机。他们可以预测用户行为 并推荐相关产品 提供危险交易预警服务
等等。
与其他IT 系统一样 性能是大数据系统获得成功的关键。本文的中心主旨是要说明如何让大数据系
统保证其性能。
2.大数据系统应包含的功能模块
大数据系统应该包含的功能模块 首先是能够从多种数据源获取数据的功能 数据的预处理(例如
清洗 验证等) 存储数据 数据处理、数据分析等(例如做预测分析 生成在线使用建议等等) 最
后呈现和可视化的总结、汇总结果。
下图描述了大数据系统的这些高层次的组件 :
2.1各种各样的数据源
当今的IT 生态系统 需要对各种不同种类来源的数据进行分析。这些来源可能是从在线Web应用
程序 批量上传或f eed 流媒体直播数据 来自工业、手持、家居传感的任何东西等等。
显然从不同数据源获取的数据具有不同的格式、使用不同的协议。例如 在线的Web应用程序可能
会使用SOA P / X M 格式通过HT T P发送数据 f eed可能会来自于CSV文件 其他设备则可能使
用MQT T 通信协议。
由于这些单独的系统的性能是不在大数据系统的控制范围之内 并且通常这些系统都是外部应用
程序 由第三方供应商或团队提供并维护 所以本文将不会在深入到这些系统的性能分析中去。
2.2数据采集
第一步 获取数据。这个过程包括分析 验证 清洗 转换 去重 然后存到适合你们公司的一个
持久化设备中(硬盘、存储、云等)。
在下面的章节中 本文将重点介绍一些关于如何获取数据方面的非常重要的技巧。请注意 本文将
不讨论各种数据采集技术的优缺点。
2.3存储数据
第二步 一旦数据进入大数据系统 清洗 并转化为所需格式时 这些过程都将在数据存储到一个
合适的持久化层中进行。
在下面的章节中 本文将介绍一些存储方面的最佳实践(包括逻辑上和物理上)。在本文结尾也会讨
论一部分涉及数据安全方面的问题。
2.4数据处理和分析
第三步 在这一阶段中的一部分干净数据是去规范化的 包括对一些相关的数据集的数据进行一些
排序 在规定的时间间隔内进行数据结果归集 执行机器学习算法 预测分析等。
在下面的章节中 本文将针对大数据系统性能优
文档评论(0)