spark开发指南.docVIP

下载本文档

66
0
约4.15万字
约 64页
2016-11-06 发布于重庆
举报
版权申诉

spark开发指南.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

spark开发指南

1、重定向方式读入scala文件（执行scala脚本） /usr/local/spark-1.2.0-bin-hadoop2.4/bin/spark-shell test_scala01.scala Spark运行调试方法与学习资源汇总 /melodyishere/article/details最近，在学习和使用Spark的过程中，遇到了一些莫名其妙的错误和问题，在逐个解决的过程中，体会到有必要对解决上述问题的方法进行总结，以便能够在短时间内尽快发现问题来源并解决问题，现与各位看官探讨学习如下：解决spark运行调试问题的四把“尖刀”： 1、Log 包括控制台日志、主从节点日志、HDFS日志等。许多错误可以通过日志，直接对错误类型、错误来源进行准确定位，因此，学会读取和分析Log是解决问题的第一步。 2、Google 确定错误类型和原因后，就可以使用Google在Spark User List、Google Group等各类Spark学习社区和论坛进行求助，而大部分问题都是可以找到答案的。 3、官网配置文档大部分问题都是配置问题引起的，如何准确配置，需要结合官方说明文档进行配置，而其中的Tuning Spark内容，也是每个Spark实践者必须了解和掌握的，推荐精读： Tuning Spark(内存调优): /docs/1.0.0/tuning.html Spark Configuration（基本配置）: /docs/1.0.0/configuration.html 4、官网Example 各个子项目都有对应的Example和源码，可以从源码的src子文件夹里找到，而在每个子项目的官网说明上也有相应的代码示例，也可以作为参考。这4个方法是解决问题的第一位要素，特别地，要会通过Log反推错误来源，定位故障原因，然后第一时间想到谷歌，把错误关键词粘贴查找寻求解答。而大部分人的问题其实主要都是配置问题，1和2其实就能解决了。3和4主要用来模仿学习，照猫画虎，学以致用，不成功便成仁。交流和互动也很重要，把握国内Spark研究的前沿，就要善于利用和挖掘各类互联网资源，这里，推荐一些博客、微博、QQ学群供大家参考学习：知名博主：徽沪一郎：/hseagle/category/569175.html fxjwind：/fxjwind/category/518904.html 张包峰：/zbf8441372/article/category/1556747 高彦杰：/gaoyanjie55 saisai_shao：http://jerryshao.me/ 微博大牛： hashjoin，Databricks大数据公司创始人之一，UC Berkeley AMPLab：/hashjoin Andrew-Xia：/u/1410938285 CrazyJvm：/476691290 明风Andy，淘宝技术部，数据挖掘与计算团队负责人：/mingfengandy saisai_shao: /u/2122584747 连城：/lianchengzju 张包峰：/pelickzhang 王联辉:/u/1685831233 徽沪一郎：/eagleonline Spark学习资料 Fast Data Processing with Spark，/s/1bnnJHlP Scala学习资料：快学Scala，/s/1gdJzElt Scala Cookbook，/s/1jGn5zPc Scala编程，/s/1pJ0Szgv Spark论文： NSDI-2012，/s/1jGifNMm [博士论文]Matei Zaharia，/s/1nt1C2BR QQ群： Spark零基础学习@367106111 Spark 快速理解 /colorant/article/details/8255958 BLOG：/colorant/ 更多云计算相关项目快速理解文档 /colorant/article/details/8255910 ==是什么 == 目标Scope（解决什么问题）在大规模的特定数据集上的迭代运算或重复查询检索官方定义 aMapReduce-like cluster computing framework designed for low-latency iterativejobs and interactive use from an interpreter 个人理解首先，MapReduce