- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark编程基础Python版-厦门大学数据库实验室.ppt
3.5 在集群上运行Spark应用程序 3.5.1 启动Spark集群 3.5.2 采用独立集群管理器 3.5.3 采用Hadoop YARN管理器 3.5.1 启动Spark集群 请登录Linux系统,打开一个终端启动Hadoop集群 $ cd /usr/local/hadoop/ $ sbin/start-all.sh 启动Spark的Master节点和所有slaves节点 $ cd /usr/local/spark/ $ sbin/start-master.sh $ sbin/start-slaves.sh 3.5.2 采用独立集群管理器 (1)在集群中运行应用程序 向独立集群管理器提交应用,需要把spark://master:7077作为主节点参数递给spark-submit 可以运行Spark安装好以后自带的样例程序SparkPi,它的功能是计算得到pi的值(3.1415926) $ cd /usr/local/spark/ $ bin/spark-submit \ --master spark://master:7077 \ /usr/local/spark/examples/src/main/python/pi.py 21 | grep Pi is roughly 3.5.2 采用独立集群管理器 (2)在集群中运行pyspark 也可以用pyspark连接到独立集群管理器上 $ cd /usr/local/spark/ $ bin/pyspark --master spark://master:7077 textFile = sc.textFile(hdfs://master:9000/README.md) textFile.count() 105 textFile.first() ‘# Apache Spark’ 3.5.2 采用独立集群管理器 用户在独立集群管理Web界面查看应用的运行情况 http://master:8080/ ( 3 ) 查看集群信息 3.5.3 采用Hadoop YARN管理器 (1)在集群中运行应用程序 向Hadoop YARN集群管理器提交应用,需要把yarn-client或yarn-cluster作为主节点参数递给spark-submit $ cd /usr/local/spark/ $ bin/spark-submit \ --master yarn-client \ /usr/local/spark/examples/src/main/python/pi.py 运行后,根据在Shell中得到输出的结果地址查看,如下图: 3.5.3 采用Hadoop YARN管理器 复制结果地址到浏览器,点击查看Logs,再点击stdout,即可查看结果,如下图: 3.5.3 采用Hadoop YARN管理器 (2)在集群中运行pyspark $ bin/pyspark --master yarn 也可以用pyspark连接到采用YARN作为集群管理器的集群上 textFile = sc.textFile(hdfs://master:9000/README.md) textFile.count() 105 textFile.first() ‘# Apache Spark’ 假设HDFS的根目录下已经存在一个文件README.md,下面在pyspark环境中执行相关语句: 3.5.3 采用Hadoop YARN管理器 (3)查看集群信息 用户在Hadoop YARN集群管理Web界面查看所有应用的运行情况 http://master:8088/cluster 附录A:主讲教师林子雨简介 单位:厦门大学计算机科学系 E-mail: ziyulin@ 个人网页:/post/linziyu 数据库实验室网站: 主讲教师:林子雨 林子雨,男,1978年出生,博士(毕业于北京大学),现为厦门大学计算机科学系助理教授(讲师),曾任厦门大学信息科学与技术学院院长助理、晋江市发展和改革局副局长。中国计算机学会数据库专业委员会委员,中国计算机学会信息系统专业委员会委员。国内高校首个“数字教师”提出者和建设者,厦门大学数据库实验室负责人,厦门大学云计算与大数据研究中心主要建设者和骨干成员,2013年度和2017年度厦门大学教学类奖教金获得者,荣获2017年福建省精品在线开放课程、2018年厦门大学高等教育成果特等奖、2018年福建省高等教育教学成果二等奖、2018年国家精品在线开放课程。主要研究方向为数据库、数据仓库、数据挖掘、大数据、云计算和物联网,并以第一作者身份在《软件学报》《计算机学报》和《计算机研究与发展》等国家重点期刊以及国际学术会议上发表多篇学
文档评论(0)