- 27
- 0
- 约7.33千字
- 约 24页
- 2017-01-27 发布于重庆
- 举报
spark分享文档.
语玩用户行为分析系统 ---基于spark的大数据用户行为分析系统撰写人:吴国兴2016.05.06目录语玩用户行为分析系统1一 前言11.1背景11.2系统名称11.3定义21.4参考资料21.5 环境准备2二 系统技术实现介绍52.1 数据产生及存储52.2 数据处理关键流程5三 模块详细介绍103.1 模块清单103.2模块详细说明11四 附录12一 开发中可能出现的问题12二 源码14一 前言1.1背景大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 随着语玩用户的日益增长,用户在使用过程中的所留下的操作习惯、用户属性等海量数据已经无法使用传统的技术或者方法来存储分析,而spark的出现,恰好解决了这一难题,利用spark,我们可以很容易的通过集群等计算分析出我们想要的结果,为我们的产品后续提供了一个很重要的决策参数,也是我们的巨大的无形资产。Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与?Hadoop?相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在?Scala?语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。1.2系统名称 全称:语玩用户行为分析系统 版本号:v1.0.0 英文简称:YWALS v1.0.01.3定义本文档中用到的术语的定义和英文名称定义:中文名称英文名称英文简称说明hbaseHBase是一个分布式的、面向列的开源数据库hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行1.4参考资料1Scala详细总结(精辟版++)2?spark介绍1.5 环境准备开发环境系统平台:windows开发所用语言: scala开发所用IDE : Scala-IDE (/)1 部署spark![if !supportLists]1、![endif]环境准备(1)配套软件版本要求:Java 6+ Python 2.6+. Scala version (2.10.x).(2)安装好linux、jdk、python, 一般linux均会自带安装好jdk与python,但注意jdk默认为openjdk,建议重新安装oracle jdk。(3)IP:91 hostname:master2、安装scala(1)下载scalawget /scala/2.10.5/scala-2.10.5.tgz(2)解压文件tar -zxvf scala-2.10.5.tgz(3)配置环境变量#vi/etc/profile#SCALA VARIABLES STARTexport SCALA_HOME=/home/jediael/setupfile/scala-2.10.5export PATH=$PATH:$SCALA_HOME/bin#SCALA VARIABLES END$ source /etc/profile$ scala -versionScala code runner version 2.10.5 -- Copyright 2002-2013, LAMP/EPFL(4)验证scala$ scalaWelcome to Scala version 2.10.5 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_51).Type in expressions to have them evaluated.Type :help for more information.scala 9*9res0: Int = 813、安装spark(1)下载sparkwget /apache/spark/spark-1.3.1/spark-1.3.1-bin-hadoop2.6
您可能关注的文档
最近下载
- 《大学物理简明教程》教学课件.pptx
- 2025年高考新高考全国Ⅰ卷英语试题(含听力音频、听力原文和答案).pdf VIP
- 2025年一级造价师《建设工程造价案例分析(交通运输)》考试真题(后附权威解析).pdf VIP
- (2025)教师资格证《中学综合素质》必考知识点大全.doc VIP
- 2025年山东劳动职业技术学院单招语文模拟试题(附答案解析) 完整版2025.pdf VIP
- 精品解析:重庆市南开中学校2024-2025学年九年级上学期期末考试数学试题(原卷版).docx VIP
- 辽宁省沈阳市和平区2023-2024学年九年级下学期学科学情调查问卷(和平区零模统考)语文试题.docx VIP
- 2025至2030高密度聚乙烯(HDPE)膜行业市场占有率及有效策略与实施路径评估报告.docx VIP
- 2026海南地质矿业集团招聘试题及答案.doc VIP
- (2026年)非计划拔管护理不良事件分析PPT课件.pptx VIP
原创力文档

文档评论(0)