基于SparkR的大数据分析平台设计.docVIP

下载本文档

24
0
约2.51千字
约 6页
2017-05-28 发布于福建
举报
版权申诉

基于SparkR的大数据分析平台设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于SparkR的大数据分析平台设计

基于SparkR的大数据分析平台设计　　摘要电信运营商在以DPI数据为基础，结合IT系统数据、网元平台数据刻画用户特征的过程中，面临着数据分析与挖掘效率低下的问题。通过分析数据挖掘效率低下的原因，结合DPI数据的特点，基于开源大数据分析与挖掘技术SparkR构建大数据分析平台，提升用户行为分析与挖掘的效率。通过大数据分析平台，使得电信运营商具备PB级数据分析与挖掘的能力【关键词】DPI数据大数据分析与挖掘 SparkR 电信运营商在以DPI数据为基础，结合IT系统数据、网元平台数据刻画用户特征的过程中，以DPI数据为代表的每天几十TB数据的分析，采用当前应用比较普遍的SPSS数据挖掘技术已不能满足大数据分析的功能和时间要求。同时，随着电信运营商正在推行数据服务互联网化，因此电信运营商迫切需要采用新的IT手段解决当前面临的大数据分析需求，提升数据服务质量。本文围绕开源大数据分析与挖掘技术SparkR，根据DPI数据的特点，构建大数据分析平台，达到大数据量分析与挖掘的功能和时间要求，同时提升数据服务质量 1 大数据分析平台设计 1.1 基本要求大数据分析平台需要快速的完成数据清洗、数据建模等环节，最终将预测的结果提供给业务人员或者系统调用。必须满足的基本要求如下：能随着数据规模的变换动态调整大数据分析平台的规模，且不影响线上的数据挖掘模型应用能保证99.99%的平台稳定性支持PB级数据的存储与分布式计算支持Redis、HBase等常见的数据存储及即时调用方式 1.2 平台设计 1.2.1 平台功能架构实现大数据的分析与挖掘，必须具备海量数据存储、分布式计算、通用数据挖掘算法支持、分析结果发布功能。形成数据采集、数据存储、数据清洗、数据建模、分析结果可视化的“大数据挖掘闭环”。大数据分析平台功能架构如图1所示 1.2.2 海量数据存储具备PB级结构化、半结构化、非结构化数据的存储能力，同时保证数据有效、快速的读取/写入能力 1.2.3 分布式计算具备PB级数据的分布式计算能力，就是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算，然后再进行结果汇总 1.2.4 数据清洗数据清洗功能主要是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性 1.2.5 通用数据挖掘算法支持需要支持通用聚类、分类等算法，如：Generalized Linear Model， Naive Bayes Model，KMeans Model 1.2.6 分析结果发布预测的结果数据最终保存到键值数据库中，通过API接口和数据可视化技术进行发布 2 实现技术 2.1 硬件平台大数据分析平台需要进行PB级数据的读取、写入，需要进行数据挖掘模型的大规模运算，需要进行预测结果的发布，对底层基础硬件的磁盘IO和运算速度要求很高，同时需要满足分布式、动态扩展的要求，因此采用配置为2路8核 CPU、128GB内存、千兆网卡的x86架构PC Server服务器 2.2 平台软件操作系统软件采用Red Hat，数据采集采用Flume-NG，海量数据存储及分布式计算采用Hadoop，数据清洗采用Hive，数据挖掘引擎采用SparkR，预测结果保存在HBase中采用HAProxy+Keepalived+Flume-NG构建高性能高可用分布式数据采集系统采用Hadoop构建PB级大数据平台，提供海量数据存储和分布式计算采用Hive做为数据清洗引擎，提供PB级数据预处理、加工、整合服务采用SparkR组件，SparkR提供了Spark中弹性分布式数据集的API，用户可以在集群上通过R shell交互性的运行job。数据挖掘模型以Spark On Yarn的yarn-cluster方式构建大数据分析引擎采用HBase技术可以提供海量数据的高效发布 2.3 大数据挖掘模型开发数据采集存储模块：DPI、业务侧、网元侧数据通过文件接口方式发送到Flume-NG集群，Flume-NG通过memory数据传输方式，将接收到的数据实时的通过hdfs方式汇聚到大数据分析平台数据清洗模块：通过编写HQL脚本对数据进行清洗、转换，形成特征宽表数据挖掘模块：基于特征宽表的数据建模采用SparkR，调用聚类、分类等算法，进行模型开发、模型评估、模型应用分析结果发布：模型应用的结果集存储在HBase中，首先需要在HBase中新建存储结果集的HBase表，通过MapReduce生成HFile文件，然后通过BulkLoad方式入库。数据的调用