- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1实验目的
(1)掌握使用Spark 访问本地文件和HDFS 文件的方法
(2)掌握 Spark 应用程序的编写、编译和运行方法
2 实验平台
(1)操作系统: Ubuntu18.04;
(2)Spark 版本:2.4.0:
(3)Hadoop 版本:3.1.3。
3 实验内容和要求
3.1 Spark 读取文件系统的数据
(1)在 spark-shell 中读取Linux系统本地文件“/home/hadoop/test.txt”, 然后统计出文 件的行数;
首先启动 spark-shell进入 Spark-shell模式: (进入spark 目录下后输入命令 bin/spark-shell 启动spark-shell模式)然后加载text文件 (spark 创建sc, 可以加载本地文件和HDFS 文件
创建
创建RDD)
scala linewithspark.count() res3:Long =0
scalas
scala val textFile = sc.textFile(file:///home/hadoop/test.txt)
textFile: org.apache.spark.rdd.RDD[String]= file:///home/hadoop/test.txt
titionsRDD[4] at textFile at console:24
scala val linewithspark = textFile.filter(line = line.contains(Spark)) linewithspark: org.apache.spark.rdd.RDD[String]= MapPartitionsRDD[5] at f
at console:26
(2)在 spark-shell 中读取 HDFS 系统文件“/user/hadoop/test.txt”(如果该文件不存在, 请先创建),然后,统计出文件的行数;
加载 text文件 (spark 创建sc, 可以加载本地文件和HDFS 文件创建RDD)
小红87
scala
scala val textFile = sc.textFile(hdfs:///user/hadoop/test.txt)
textFile: org.apache.spark.rdd.RDD[String]= hdfs:i/er/hadocp/test.txt
titionsRDD[7] at textFile at console:24
scala val linewithspark = textFile.filter(line = line.contains(Spark) Linewithspark: org.apache.spark.rdd.RDD[String]= MapPartitionsRDD[8] at
at console:26
scala linewithspark.count()
res4: Long =0
scala
( 3 ) 编 写 独 立 应 用 程 序 ( 推 荐 使 用 Scala语 言 ) , 读 取 HDFS 系 统 文 件 “/user/hadoop/test.txt” (如果该文件不存在,请先创建),然后,统计出文件的行数;通 过sbt工具将整个应用程序编译打包成 JAR 包,并将生成的JAR 包通过 spark-submit 提交 到 Spark 中运行命令。
import org.apache.spark.SparkContext import org.apache.spark.SparkContext. import
org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]){
val logFile =hdfs://localhost:9000/user/hadoop/test.txt val conf = new
SparkConf().setAppName(Simple Application) val sc = new SparkContext(conf)
val logData = sc.textFile(logFile, 2)
您可能关注的文档
- Android开发规范专项测试题附答案.docx
- CT扫描规范化操作手册.docx
- java_ssm小型企业办公自动化系统的的设计与实现vue毕业论文.docx
- OA协同办公系统解决方案(完整版本).docx
- plc网络与通信讲稿文本.docx
- Python编程基础循环语句教案.docx
- WPI时间空间域全波形反演.docx
- XYL’EMPlus木质部栓塞测量仪中文使用手册.docx
- 安全地进行游戏(教案)-2021-2022学年体育二年级下册.docx
- 安全员实习报告-总结+计划版.docx
- 2024高考物理一轮复习规范演练7共点力的平衡含解析新人教版.doc
- 高中语文第5课苏轼词两首学案3新人教版必修4.doc
- 2024_2025学年高中英语课时分层作业9Unit3LifeinthefutureSectionⅢⅣ含解析新人教版必修5.doc
- 2024_2025学年新教材高中英语模块素养检测含解析译林版必修第一册.doc
- 2024_2025学年新教材高中英语单元综合检测5含解析外研版选择性必修第一册.doc
- 2024高考政治一轮复习第1单元生活与消费第三课多彩的消费练习含解析新人教版必修1.doc
- 2024_2025学年新教材高中英语WELCOMEUNITSectionⅡReadingandThi.doc
- 2024_2025学年高中历史专题九当今世界政治格局的多极化趋势测评含解析人民版必修1.docx
- 2024高考生物一轮复习第9单元生物与环境第29讲生态系统的结构和功能教案.docx
- 2024_2025学年新教材高中英语UNIT5LANGUAGESAROUNDTHEWORLDSect.doc
文档评论(0)