- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国移动通信集团设计院第20届新技术论坛论文集 移动互联网
基于改进SALS算法的大数据挖掘效率优化探究
黄少卿,胡立强
河北分院
摘 要:针对大数据挖掘中存在的效率问题,提出了基于改进SALS算法的Hadoop推测调度,从而减少
异构环境下的资源浪费,提高大数据挖掘效率。
关键词:大数据挖掘,Hadoop,推测调度,SALS
Storm、S4[4]等;批处理技术或者称为线下处理技术
l 引言
的典型代表则是MapReduce。对于移动运营商,实
移动互联网时代,随着3G/4G的普及,网络建 时处理能力固然重要,但是通过大批量的线下数据
设速度的加快以及大规模的数码设备的使用,移动 处理找到潜在的商业契机、提升用户体体验、实施
运营商业务和数据规模的扩张呈几何级增长【lJ。以 决策分析、精准营销推荐、运营效能提升、创新商
某省的基本数据量为例,其话音通话记录每天入库 业模式等对于运营商来说更为重要。本文关注大数
2.5T,SMS话单记录每天入库800G以上,MC口 据批处理中现有技术的性能提升。
信令数据每天20TB,GN口信令数据每天8TB, 2.1 MPP架构新型数据库技术
警告、性能等数据每天约3TB。再计算通过机器设 MPP(massive
parallel
备、服务器、软件自动产生的各类非人机会话数据, 讲,是由多个SMP服务器横向扩展组成的分布式服
以非结构和半结构化形式呈现的数据已经远远超过 务器集群【5】。MPP架构并不是一种池化资源的大数
了传统关系型数据处理的能力范畴。 据处理架构,集群中的每个节点均访问本地资源,
传统的RDBMS可以处理结构化数据,其缺点采用Share
Nothing结构,集群节点之间并不存在
是系统孤立、数据量处理小,面对移动互联网时代 共享及互访问的问题,而足通过统一的互联模块
的数据暴增特点,IT系统的可扩展性、成本控制、 来调度、平衡节点负载和并行处理过程。架构如
数据有效性挖掘均需要通过低成本的通用设备,通 图l所示。
过构建“池化资源”并结合“大数据挖掘”能力来
推进业务进展。
池化资源是指通过运用虚拟化技术,将单个物 10
理机器资源进行分割或者将多台物理机器资源进行
整合,充分利用物理机的处理能力,实现物理机的 卧一 时一
高效分配和利用【2J。大数据挖掘则针对具有4V特点 MPP节点
的海量数据进行压缩、去重、整理、交叉分析和对 一点 嵩 互联模块 一点 撩匠
比,并结合关联、聚合等传统数据挖掘技术对非结
构化和半结构化的数据进行分析[3】。本文通过对现
有大数据挖掘技术的分析比对,就其中涉及数据查
10
询的可优化部分做深入讨论。
一
2现行的大数据挖掘技术 日
自大数据概念诞生以来,陆续出现了多种大数 一点 撩匠
据挖掘处理技术,如果以处理的实时性来分类,可
以将大数据挖掘处理
文档评论(0)