史上最全地“大大数据”学习资源上.docVIP

下载本文档

3
0
约1.58万字
约 15页
2018-12-18 发布于安徽
举报
版权申诉

史上最全地“大大数据”学习资源上.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

实用标准文案精彩文档史上最全的“大数据”学习资源（上）本文章来自于阿里云云栖社区摘要：?当今“大数据”一词的重点其实已经不仅在于数据规模的定义，它更代表着信息技术发展进入了一个新的时代，代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难，代表着大数据处理所需的新的技术和方法，也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。为了帮助大家更好深入了解大数据，当前，整个互联网正在从IT时代向DT时代演进，大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义，它更代表着信息技术发展进入了一个新的时代，代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难，代表着大数据处理所需的新的技术和方法，也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。为了帮助大家更好深入了解大数据，云栖社区组织翻译了GitHub Awesome Big Data资源，供大家参考。本资源类型主要包括：大数据框架、论文等实用资源集合。在本次分享中，虎嗅网联合创始人韩祖利将为大家分享虎嗅网云上架构实践经验，包括如何打造高效图片系统、如何做好主动式缓存管理，以及使用云服务的经验。同时，也会从一个老司机的角度分享如何做好系统架构设计。 ? 资源列表： ??关系数据库管理系统（RDBMS） ??框架 ??分布式编程 ??分布式文件系统 ??文件数据模型 ??Key -Map?数据模型 ??键-值数据模型 ??图形数据模型 ??NewSQL数据库 ??列式数据库 ??时间序列数据库 ??类SQL处理 ??数据摄取 ??服务编程 ??调度 ??机器学习 ??基准测试 ??安全性 ??系统部署 ??应用程序 ??搜索引擎与框架 ??MySQL的分支和演化 ??PostgreSQL的分支和演化 ??Memcached的分支和演化 ??嵌入式数据库 ??商业智能 ??数据可视化 ??物联网和传感器 ??文章 ??论文 ??视频关系数据库管理系统（RDBMS） ?? HYPERLINK / MySQL：世界最流行的开源数据库； ?? HYPERLINK / PostgreSQL：世界最先进的开源数据库； ?? HYPERLINK /us/corporate/features/database-12c/index.html Oracle?数据库：对象-关系型数据库管理系统。框架 ?? HYPERLINK / Apache Hadoop：分布式处理架构，结合了?MapReduce（并行处理）、YARN（作业调度）和HDFS（分布式文件系统）； ?? HYPERLINK /caskdata/tigon Tigon：高吞吐量实时流处理框架。分布式编程 ?? HYPERLINK /addthis/hydra AddThis Hydra?：最初在AddThis上开发的分布式数据处理和存储系统； ?? HYPERLINK http://databricks.github.io/simr/ AMPLab SIMR：用在Hadoop MapReduce v1上运行Spark； ?? HYPERLINK /projects/beam.html Apache Beam：为统一的模型以及一套用于定义和执行数据处理工作流的特定SDK语言； ?? HYPERLINK / Apache Crunch：一个简单的Java API，用于执行在普通的MapReduce实现时比较单调的连接、数据聚合等任务； ?? HYPERLINK /projects/datafu.html Apache DataFu：由LinkedIn开发的针对Hadoop and?和Pig的用户定义的函数集合； ?? HYPERLINK / Apache Flink：具有高性能的执行时间和自动程序优化； ?? HYPERLINK / Apache Gora：内存中的数据模型和持久性框架； ?? HYPERLINK / Apache Hama：BSP（整体同步并行）计算框架； ?? HYPERLINK /hadoop/MapReduce/ Apache MapReduce?：在集群上使用并行、分布式算法处理大数据集的编程模型； ?? HYPERLINK / Apache Pig?：Hadoop中，用于处理数据分析程序的高级查询语言； ?? HYPERLINK / Apache REEF?：用来简化和统一低层大数据系统的保留性评估执行框架； ?? HYPERLINK /s4/ Apache S4?：S4中流处理与实现的框架； ?? HYPERLINK / Apache Spark?：内存集群计算框架； ?? HYPERLIN