大数据存储分析.ppt

下载文档 降价啦

24
0
约1.63万字
约 59页
2017-01-10 发布于辽宁
举报
版权申诉
保障服务

大数据存储分析.ppt

1、本文档共59页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据存储分析

大数据量。“小分析学”。此处的目标是对极大量的数据集使用SQL。对大数据集，没有人会用“Select *”来查询因为其返回太子节（terabyte）的数据使接收者无法应付。替代方案，则是对海量数据把注意力放在SQL的分析功能上，如count、sum、max、min、avg等，可辅之以group_by。我将此称作“小分析学”，以便把这个用例（use case）区别于下面的场合。对大量数据使用大分析学。“大分析学”在此的含义是：对海量数据施用数据聚类（clustering）、回归分析、机器学习、以及其他更为复杂的分析手段。目前，用户倾向于采用统计学软件包如R、SPSS、SAS等来实现。其他方案是使用线性代数软件包，例如：ScalaPack或Arpack。最后，也有大量自行开发的代码在使用中。大速度。其含义是：对电子交易、实时网页广告投放、实时客户针对营销、移动社交网络等应用，能够吸收并处理“灭火水龙带”式的数据涌入。此用例在大型网站公司和华尔街盛行，二者都倾向于自行开发。大多样性。许多企业面临整合日益扩大的多种数据源，而数据格式千差万别，例如：电子表格、网页、XML、传统的关系型数据库等。许多企业认为这是最头疼的问题。从历史上来说，萃取、转置、加载（ETL）供应商在此市场上对有限的数据源曾提供服务。 * 大数据量。“小分析学”。此处的目标是对极大量的数据集使用SQL。对大数据集，没有人会用“Select *”来查询因为其返回太子节（terabyte）的数据使接收者无法应付。替代方案，则是对海量数据把注意力放在SQL的分析功能上，如count、sum、max、min、avg等，可辅之以group_by。我将此称作“小分析学”，以便把这个用例（use case）区别于下面的场合。对大量数据使用大分析学。“大分析学”在此的含义是：对海量数据施用数据聚类（clustering）、回归分析、机器学习、以及其他更为复杂的分析手段。目前，用户倾向于采用统计学软件包如R、SPSS、SAS等来实现。其他方案是使用线性代数软件包，例如：ScalaPack或Arpack。最后，也有大量自行开发的代码在使用中。大速度。其含义是：对电子交易、实时网页广告投放、实时客户针对营销、移动社交网络等应用，能够吸收并处理“灭火水龙带”式的数据涌入。此用例在大型网站公司和华尔街盛行，二者都倾向于自行开发。大多样性。许多企业面临整合日益扩大的多种数据源，而数据格式千差万别，例如：电子表格、网页、XML、传统的关系型数据库等。许多企业认为这是最头疼的问题。从历史上来说，萃取、转置、加载（ETL）供应商在此市场上对有限的数据源曾提供服务。 * 大数据量。“小分析学”。此处的目标是对极大量的数据集使用SQL。对大数据集，没有人会用“Select *”来查询因为其返回太子节（terabyte）的数据使接收者无法应付。替代方案，则是对海量数据把注意力放在SQL的分析功能上，如count、sum、max、min、avg等，可辅之以group_by。我将此称作“小分析学”，以便把这个用例（use case）区别于下面的场合。对大量数据使用大分析学。“大分析学”在此的含义是：对海量数据施用数据聚类（clustering）、回归分析、机器学习、以及其他更为复杂的分析手段。目前，用户倾向于采用统计学软件包如R、SPSS、SAS等来实现。其他方案是使用线性代数软件包，例如：ScalaPack或Arpack。最后，也有大量自行开发的代码在使用中。大速度。其含义是：对电子交易、实时网页广告投放、实时客户针对营销、移动社交网络等应用，能够吸收并处理“灭火水龙带”式的数据涌入。此用例在大型网站公司和华尔街盛行，二者都倾向于自行开发。大多样性。许多企业面临整合日益扩大的多种数据源，而数据格式千差万别，例如：电子表格、网页、XML、传统的关系型数据库等。许多企业认为这是最头疼的问题。从历史上来说，萃取、转置、加载（ETL）供应商在此市场上对有限的数据源曾提供服务。 * 大数据量。“小分析学”。此处的目标是对极大量的数据集使用SQL。对大数据集，没有人会用“Select *”来查询因为其返回太子节（terabyte）的数据使接收者无法应付。替代方案，则是对海量数据把注意力放在SQL的分析功能上，如count、sum、max、min、avg等，可辅之以group_by。我将此称作“小分析学”，以便把这个用例（use case）区别于下面的场合。对大量数据使用大分析学。“大分析学”在此的含义是：对海量数据施用数据聚类（clustering）、回归分析、机器学习、以及其他更为复杂的分析手段。目前，用户倾向于采用统计学软件包如R、SPSS、SAS等来实现。其他方案是使