《通信公司Hadoop环境及应用说明.docxVIP

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《通信公司Hadoop环境及应用说明

通信公司Hadoop环境及应用说明 硬件环境 目前公司测试环境硬件情况: 三台测试服务器,信息如下: 设备型号 浪潮NF8560M2 设备IP,主机名 私网: 05 sdw3 06 sdw4 07 sdw5 外网: 7 sdw3-sp 8 sdw4-sp 1 sdw5-sp 处理器 E7-4807*4,主频:1860MHz ,核心数量:六核心 ,线程数量:12 ,L3缓存:18MB 内存 256GB 硬盘 8*2TB(企业级)SATA,转速7200 RAID 操作系统2块RAID1,其余6块RAID0 网卡 2个千兆网卡 HBA卡 无 操作系统 RHEL6.2 24口千兆网络交换机一台,信息如下: 5台segment host 使用2块千兆网口做多网卡绑定bond0,Master host 使用三个千兆网口做多网卡绑定bond0,组成一个内部私有网络。 sdw3,sdw4,sdw5在绑定网卡上增加IP方式设置外部IP,mdw-sp,sdw1-sp,sdw2-sp单独一个网卡设置外部IP。 所有外部IP从一个口连接外部网络,端口速率是100M bit/s,除出口外所有网口速率均为1000M bit/s。 应用信息说明 数据处理技术架构 我们选用其中的信令数据和话单数据作为POC验证的数据源。 典型ETL过程 业务说明 信令数据的分析内容:信令数据主要用于业务构成等相关分析,通过信令数据可以获取小区、用户的业务构成情况,分析出小区主要承载的是什么类型的业务,用户对哪些业务有偏好等;同时通过信令数据还可以分析用户使用的终端对不同网络的质量支持情况。 信令数据的分析用途:用于市场营销判断(区域营销和用户营销)及建站考虑因素(TD和热点) ETL环节对应: 数据处理流程: 加载方式 有几种种场景的ETL过程 原始信令文件到HIVE 步骤1 方式1:采用flume采集,转换格式并保存到HDFS 方式2:采用自有工具FPF采集,转换格式后保存到HDFS 采集到HDFS,使用HIVE的转载语句进行转载(,实际也可以直接移动文件到HIVE表所在目录. LOAD DATA INPATH ‘…’ INTO TABLE 表 [PATITION(…)]; Hadoop fs –mv from to HIVE内部汇总,结果HIVE表 INSERT INTO TABLE O_CU_ST_SG_DY_BUSI PARTITION(DAY_KEY SELECT /*+ MAPJOIN(DM_CELlKEY) */ DM_CELlKEY.CELL_KEY, AREAID AS USERCITY_KEY, rattype, serviceid, protocolid, interfacetype, tac, uetype, ostype, browsertype, apn, sgsnid, ggsnid, imsi, imei, msisdn, times, duration, sendpacket, recvpacket, sendoct/1024/1024, recvoct/1024/1024, alloct/1024/1024, netdelay, minnetdelay, maxnetdelay, termdelay, mintermdelay, maxtermdelay, imassigncnt, impagingcnt, uplosspktnum, downlosspktnum, upretranspktnum, downretranspktnum, uiipsegmentpktnum FROM SG_BUSI_DY_PT JOIN DM_CELlKEY ON (SG_BUSI_DY_PT.LAC = DM_CELlKEY.LAC and SG_BUSI_DY_PT.CELL = DM_CELlKEY.CI) WHERE DAY_KEY = 汇总过程一般以天为单位,结果表需要指定具体分区,查询条件也要指定分区 HIVE表到关系数据库 可以采用以下方式: Sqoop工具 将HDFS文件导出到本地文件系统,使用数据库文件装载工具入库,本案例中到Oracle使用sqlldr,作为优化可以将HDFS mount到文件系统可以减少一次导出到本地文件系统的过程。 HIVE表到Hbase 可以直接使用Hive集成Hbase的方式进行插入。 使用块装载到HBASE 使用Mapreduce读文件插入HBASE Hbase到关系数据库 目前不需要。 方式1:导出文件,在Oracle进行文件装载 数据处理流程表结构说明: 序号 数据层 表名 1 STG SG_BUSI_DY 2 ODM O_CU_ST_SG_DY_BUSI 3

文档评论(0)

84537592 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档