大数据BI案例分享.pdfVIP

下载本文档

7
0
约 5页
2015-07-21 发布于重庆
举报
版权申诉

大数据BI案例分享.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据BI案例分享.pdf

永洪科技大数据 BI 案例本文档主要介绍两个案例，一个是互联网行业大数据案例，一个是电信行业的大数据案例。互联网大数据案例案例背景某著名咨询公司用户行为分析系统面临问题：实时分析的数据量大，基于 Hive 的分析系统不够实时，但预算有限。问题解决步骤 1. 首先提出了测试方案： 90 天细节数据约 50 亿条导入 YonghongDM ，再定制 Dashboard 分析。 2. 简单测试：先通过 5 台 PCServer，导入 1-2 天的数据，演示如何 ETL，如何做简单应用。 3. 按照提出的测试方案开始导入 90 天的数据，在导入数据中解决了如下问题：解决步长问题，有效访问次数，在几个分组内，停留时间大于 30 分钟。解决 HBase 数据和 SQLServer 数据的关联问题。解决分组太多，Span 过多的问题。 4. 数据源及数据特征分析： 90 天的数据，Web 数据 7 亿，App 数据 37 亿，总估计在 50 亿。每个表有 20 多个字段，一半字符串类型，一半数值类型，一行数据估计 2000Byte 。每天 5000 万行，原始数据每天 100G，100 天是 10T 的数据。抽取样本数据 100 万行，导入数据集市，数据量在 180M。 50 亿数据的若全部导入需要 900G 的量，压缩比在 11:1。假设同时装载到内存中分析的量在 1/3,那总共需要 300G 的内存。 5. 设计方案：总共配制需要 300G 的内存。硬件：5 台 PC Server，每台内存：64G，4 CPU 4 Core 。机器角色：一台 Naming、Map，一台 Client、Reduce、Map，其余三台都是 Map。 6. ETL 过程: 历史数据集中导：每天的细节数据和 SQL Server 关联后，打上标签，再导入集市。增量数据自动导：先删除近 3 天的数，再导入近 3 天的数。维度数据被缓存；细节数据按照日期打上标签，跟缓存的维度数据关联后入集市；根据系统配置调优日期标签来删除数据；清洗出有意义的字段。 7. 系统配置调优：内部管理内存参数： mem.proc.count=8 mem.serial.mem=5120 mem.result.mem=10240 JVM 内存管理参数配置： JAVA_OPTS=-XX:NewRatio=3 -XX:SurvivorRatio=1 -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:MaxGCPauseMillis=6000 -XX:GCTimeRatio=19 -XX:ParallelGCThreads=16 -XX:+UseCMSCompactAtFullCollection -XX:CMSFullGCsBeforeCompaction=1 -XX:CMSInitiatingOccupancyFraction=80 -XX:+CMSClassUnloadingEnabled -XX:-CMSParallelRemarkEnabled -XX:SoftRefLRUPolicyMSPerMB=0 -XX:+PrintHeapAtGC-XX:+PrintGCDetails -Xms61440m-Xmx61440m-Djava.awt.headless=true 8. 前端展现：互联网用户行为分析: 浏览器分析：运行时间，有效时间，启动次数，覆盖人数，等等。主流网络电视：浏览总时长，有效流量时长，PV 覆盖占有率，UV 占有率，等等。主流电商网站：在线总时长，有效在线总时长，独立访问量，网站覆盖量，等等。主流财经网站：在线总时长，有效总浏览时长，独立访问量，总覆盖量，等等。报表截图案例测试结果 90 天数据，近 10T 的原始数据，大部分的查询都是秒级响应。实现了 Hbase 数据与 SQL Server 中维度表关联分析的需求。预算有限，投入并不大，又能解决 Hive 不够实时的问题。性能卓越的交互式 BI 呈现，非常适合分析师使用。电信大数据案例案例背景某省移动 CMNET 流量分析与控制系统面临问题：数据量特别大，但预算特别有限，基于 DW 的分析系统完全无法支持。问题解决步骤 1.首先提出了测试方案： 100 天数据约 60 亿条导入 Yongho