spark分享文档探索.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语玩用户行为分析系统 基于spark的大数据用户行为分析系统 撰写人:吴国兴 2016.05.06 目录  TOC \* MERGEFORMAT 语玩用户行为分析系统  PAGEREF _Toc11297 1 一 前言  PAGEREF _Toc26602 1 1.1背景  PAGEREF _Toc1605 1 1.2系统名称  PAGEREF _Toc4287 1 1.3定义  PAGEREF _Toc28831 2 1.4参考资料  PAGEREF _Toc836 2 1.5 环境准备  PAGEREF _Toc25591 2 二 系统技术实现介绍  PAGEREF _Toc10667 5 2.1 数据产生及存储  PAGEREF _Toc19477 5 2.2 数据处理关键流程  PAGEREF _Toc18806 5 三 模块详细介绍  PAGEREF _Toc16356 10 3.1 模块清单  PAGEREF _Toc12647 10 3.2模块详细说明  PAGEREF _Toc13880 11 四 附录  PAGEREF _Toc2923 12 一 开发中可能出现的??题  PAGEREF _Toc20939 12 二 源码  PAGEREF _Toc6639 14   PAGE \* MERGEFORMAT 21 一 前言 1.1背景 大数据(big data),指无法在可承受的时间范围内用常规 HYPERLINK /subview/37/6030295.htm \t /_blank 软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 随着语玩用户的日益增长,用户在使用过程中的所留下的操作习惯、用户属性等海量数据已经无法使用传统的技术或者方法来存储分析,而spark的出现,恰好解决了这一难题,利用spark,我们可以很容易的通过集群等计算分析出我们想要的结果,为我们的产品后续提供了一个很重要的决策参数,也是我们的巨大的无形资产。 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与?Hadoop?相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在?Scala?语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。 1.2系统名称 全称:语玩用户行为分析系统 版本号:v1.0.0 英文简称:YWALS v1.0.0 1.3定义 本文档中用到的术语的定义和英文名称定义: 中文名称英文名称英文简称说明hbaseHBase是一个分布式的、面向列的开源数据库hivehive是基于Hadoop的一个 HYPERLINK /view/19711.htm \t /subview/699292/_blank 数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行 1.4参考资料 1  HYPERLINK /view/04e0904ea1c7aa00b42acb24.html?from=search Scala详细总结(精辟版++) 2 ? HYPERLINK /link?url=72NV0FYCYL2bjd-ZuSyelAlnp6mQzZ8FdE2Ejw6SyXuHEKRWEijPkB1YaopI_Ihy1MhmGePAnqhGLIpRUWjCA9iLWV3_oXzFEx2CJ5FsF-i spark介绍 1.5 环境准备 开发环境系统平台 :windows 开发所用语言 : scala 开发所用IDE : Scala-IDE (/) 1 部署spark ![if

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档