基于jupyter的大数据分析工具在网络优化领域的应用研究.docx

下载文档

0
0
约3.52千字
约 8页
2024-09-10 发布于湖北
举报
版权申诉
保障服务

基于jupyter的大数据分析工具在网络优化领域的应用研究.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于jupyter的大数据分析工具在网络优化领域的应用研究

蔡林

【摘要】??目的：介绍JupyterNotebook在网络优化领域的应用情况。方法：集成Hadoop、Spark、JupyterNotebook等开源工具，搭建网络优化分析平台，基于真实案例验证其在网络优化领域应用的可行性。结果：通过搭建大数据计算环境，成功实现多数据接入、分布式运算、分布式存储、交互式应用及结果展示等功能，并基于该平台完成网络整体问题分析、问题原因定位分析、问题处理方案分析、问题处理效果分析等大数据分析任务。结论：结合网络优化的大数据分析需求，搭建便于使用的大数据分析环境，提升基于大数据的网络优化分析能力。

【关键词】??大数据??JupyterNotebook?Hadoop??Spark??分布式计算??网络优化

引言：

随着无线通信网络的快速发展，网络优化信息化、智能化建设进入了突飞猛进的发展阶段，积累了大量的MR（测量报告）、PM（性能数据）、NRM（网络资源管理）、工参等基础数据。这些数据资源的价值还未能充分的挖掘，如何从各维度大量数据中发现可用的信息，加速网络优化信息化、智能化进程是迫在眉睫的任务。通过对网优大数据特性及网优工作协作方式与JupyterNotebook进行结合性研究，实现有效的且适用于网优的大数据分析，以满足网络优化分析需求。

一、jupyter与网络优化分析处理的结合

1.1JupyterNotebook[1]技术与网络优化分析应用结合

Jupyter是一个可交互的记事本，支持了Python[2]、Julia、JavaScript、R等等编程语言达40多种。它是一个开源的Web应用程序，在其环境中可以运行代码和记录代码，可以对数据进行清洗，可以通过可视化视图查看数据结果，可以进行大数据相关的数模转换、模型构建、机器学习训练等。

如图1所视，JupyterNotebook的系统架构包括人机交互、浏览器、服务器、核心、文件等，其中服务器为核心构件。网优分析人员通过浏览器连接到服务器，在Web中编写代码并将代码发送到内核，由内核执行，于将结果反馈到Web页面。个人编写的代码保存在服务器中，可共享给其他人员使用。

1.2JupyterHub[3]技术与网优工作流程结合

JupyterHub支持多个用户（包括管理人员、网优人员和维护人员等）同时构建自己的工作空间和计算环境，共享或使用其他人的资源，以达到联机协作的目的。

1.3HDFS[4]与jupyter结合作大数据存储

Hadoop分布式文件系统（HDFS）是指被设计成适合运行在通用硬件（commodityhardware）上的分布式文件系统（DistributedFileSystem），用于存储网络优化分析所需的各类型各维度数据。

1.4Spark[5]与jupyther结合作大数据计算

Spark提供了80多个高级运算符。一方面，Spark提供了支持多种语言的API，使得用户开发Spark程序十分方便。另一方面，Spark是基于Scala语言开发的，使得Spark应用程序代码非常简洁。同时由于spark基于内存，在网优大数据处理领域，性能比hadoop快。

二、基于jupyter的网络优化分析平台架构

网络优化分析平台的建设面向基于大数据的网络分析优化需求，以网优问題分析定位为主要目的，结合MR、PM、NRM、CM等数据特点，主要以满足网络优化问题定位为主。网络优化分析平台的总体架构图见图2，包括网优数据的采集解析、基于不同数据类型的分布式存储、各类型数据不同维度的分布式运算、各类型数据的组合应用层以及用户界面应用。

2.1用户界面

界面提供给网优工作人员进行网优工作信息交互，实现网络信息的内部组合形式与网优人员可以接受的按照既定业务逻辑形式之间的转换。

2.2应用层

应用层为网优人员提供了自行代码编写、程序调试及结果展示的功能，利用JupyterHub实现多个网优人员的Notebook管理，同时也提供了HIVE、PIG等传统的大数据统计分析工具供网优人员选择。

2.3分布式运算

基于Spark框架，利用SparkStreaming、SparkSQL、GraphX、MLlib等核心组件，实现网络优化各类型各维度数据统计。

2.4分布式存储

网络优化分析大数据平台采用HDFS作为分布式存储的文件系统，HDFS有着高容错性（fault-tolerant）的特点，而且它提供高吞吐量（highthroughput）来访问应用程序的数据，适合那些有着超大数据集（largedataset）的应用程序。从而支持网优人员在HBase[6]或HDFS上对数据进行查询、编辑等操作。