大数据学习资源汇总选读.docx

下载文档 降价啦

0
0
约1.96万字
约 23页
2017-08-15 发布于湖北
举报
版权申诉
保障服务

大数据学习资源汇总选读.docx

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据学习资源汇总当前，整个互联网正在从IT时代向DT时代演进，大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义，它更代表着信息技术发展进入了一个新的时代，代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难，代表着大数据处理所需的新的技术和方法，也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。为了帮助大家更好深入了解大数据，云栖社区组织翻译了GitHub Awesome Big Data资源，供大家参考。本资源类型主要包括：大数据框架、论文等实用资源集合。?资源列表：???关系数据库管理系统（RDBMS）??框架??分布式编程??分布式文件系统??文件数据模型??Key -Map?数据模型??键-值数据模型??图形数据模型??NewSQL数据库??列式数据库??时间序列数据库??类SQL处理??数据摄取??服务编程??调度??机器学习??基准测试??安全性??系统部署??应用程序??搜索引擎与框架??MySQL的分支和演化??PostgreSQL的分支和演化??Memcached的分支和演化??嵌入式数据库??商业智能??数据可视化??物联网和传感器??文章??论文??视频?关系数据库管理系统（RDBMS）??SQLServer：世界最有活力的数据库；????MySQL：世界最流行的开源数据库；??PostgreSQL：世界最先进的开源数据库；??Oracle?数据库：对象-关系型数据库管理系统。?框架???Apache Hadoop：分布式处理架构，结合了?MapReduce（并行处理）、YARN（作业调度）和HDFS（分布式文件系统）；??Tigon：高吞吐量实时流处理框架。?分布式编程???AddThis Hydra?：最初在AddThis上开发的分布式数据处理和存储系统；??AMPLab SIMR：用在Hadoop MapReduce v1上运行Spark；??Apache Beam：为统一的模型以及一套用于定义和执行数据处理工作流的特定SDK语言；??Apache Crunch：一个简单的Java API，用于执行在普通的MapReduce实现时比较单调的连接、数据聚合等任务；??Apache DataFu：由LinkedIn开发的针对Hadoop and?和Pig的用户定义的函数集合；??Apache Flink：具有高性能的执行时间和自动程序优化；??Apache Gora：内存中的数据模型和持久性框架；??Apache Hama：BSP（整体同步并行）计算框架；??Apache MapReduce?：在集群上使用并行、分布式算法处理大数据集的编程模型；??Apache Pig?：Hadoop中，用于处理数据分析程序的高级查询语言；??Apache REEF?：用来简化和统一低层大数据系统的保留性评估执行框架；??Apache S4?：S4中流处理与实现的框架；??Apache Spark?：内存集群计算框架；??Apache Spark Streaming?：流处理框架，同时是Spark的一部分；??Apache Storm?：Twitter流处理框架，也可用于YARN；??Apache Samza?：基于Kafka和YARN的流处理框架；??Apache Tez?：基于YARN，用于执行任务中的复杂DAG（有向无环图）；??Apache Twill?：基于YARN的抽象概念，用于减少开发分布式应用程序的复杂度；??Cascalog：数据处理和查询库；??Cheetah?：在MapReduce之上的高性能、自定义数据仓库；??Concurrent Cascading?：在Hadoop上的数据管理/分析框架；??Damballa Parkour?：用于Clojure的MapReduce库；??Datasalt Pangool?：可选择的MapReduce范例；??DataTorrent StrAM?：为实时引擎，用于以尽可能畅通的方式、最小的开支和对性能最小的影响，实现分布式、异步、实时的内存大数据计算；??Facebook Corona?：为Hadoop做优化处理，从而消除单点故障；??Facebook Peregrine?：MapReduce框架；??Facebook Scuba?：分布式内存数据存储；??Google Dataflow?：创建数据管道，以帮助其分析框架；??Netflix PigPen?：为MapReduce，用于编译成Apache Pig；??Nokia Disco?：由Nokia开发的MapReduc获取、转换和分析数据；??Google MapReduce?：MapReduce框架；??Google