- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
优秀毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
移动互联网 中国移动通信集团设计院第19届新技术论坛论文集
海量扫频数据的存储与分析研究
陶琳,岳 军,万仁辉,王文博
院本部/网优所
摘 要:在中国移动全网扫频分析项目中,每年都要采集数10G级别的大量扫频数据,逐年累积的海量数
据在进行分析时需要注重处理效率与准确性,以往传统的人工分析方式费时费力也容易出错。本文研究一
术,能够对海量数据进行有效存储与智能分析。
关键词:数据仓库,分布式处理,Hadoop,智能分析
reference
投影的军事栅格参考系(militarygrid
1 关键技术
1.1数据仓库 来对栅格进行唯一性标识,并给出采样点经纬度
数据仓库是一种基于传统数据库技术的大数 到栅格索引的换算公式。根据经纬度与栅格索引
据集的数据存储方案,是为企业所有级别的决策制 的换算公式,对栅格索引相同的采样点进行汇总。
定过程提供支持的所有类型数据的战略集合。它是 扫频数据栅格化处理后,大大降低了数据量级,
单个数据存储,出于分析性报告和决策支持的目的 消除了采样点分析时重复测试和上报速度的影
而创建。为企业提供需要业务智能来指导业务流程 响,同时基于栅格能够开展网间数据与历史数据
改进和监视时间、成本、质量和控制。数据仓库的 的对比分析。
数据有来自于分散的操作型数据,将所需数据从原
2扫频数据的存储
来的数据中抽取出来,进行加工与集成,统一与综
合之后才能进入数据仓库。 2.1总体架构
1.2 Hadoop技术 首先对采集的扫频数据按照栅格进行归一化
Hadoop是一种开源的分布式系统架构,用户可处理,降低数据量级,生成栅格信息数据;将这些
以在不了解分布式底层细节的情况下,开发分布式 栅格数据通过数据仓库或者HDFS文件系统进行联
处理程序。充分利用集群的威力高速运算和存储。
dis. 行分析。具体流程如图1所示。
Hadoop实现了一个分布式文件系统(hadoop
tributedfile 2.2扫频数据的存储
system,HDFS)。HDFS有着高容错性的
特点,并且设计用来部署在低廉的硬件上。它提供 存储数据首先需要解决的是数据的存储格式
高传输率来访问应用程序的数据,适合那些有着超 规范,由于扫频数据采样点数据采用统一的数据格
大数据集的应用程序。 式,很方便将栅格化处理后的栅格数据格式进行统
1.3栅格 一,且由栅格索引进行唯一性标识,这样才能通过
传统扫频数据都是按照每个采样点上报的方 数据库表进行统一存储,此外在进行HDFS存储大
式进行统计,这种统计方式的缺点是受测试路线与 文件数据时,文件中数据格式统一更方便后续的
扫频仪上报速度的影响,有时存在很多冗余数据, MapReduce程序编写与分析。
且不便一些归类分析,如网间数据与历史数据的对 对扫频数据进行栅格化处理后的栅格数据,可
比分析等。这里采用一种栅格统计方式,将扫频采 以通过数据仓库的方式进行存储。考虑到逐年累积,
样点数据按照栅格区域进行归类统计,生成一种以 栅格数据总量会越来越大,如
文档评论(0)