- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
方案2细节: 前端向后台通信采取socket方式,后台处理完数据后,可以把最终数据合并,再加载到数据库中的表,也可以由各线程把各自数据分批插入到数据库中的表。 数据加载完成后,再通过socket通知前端处理完毕。 LUA具体如何处理和优化,细节尚待研究,需要花时间。 细致工作还有很多,需要继续研究和深入下去。 方案2细节: 如果要考虑到硬件成本、分布式部署、开发时间和难度问题,可以接下来优化为采用hadoop方案。 采用hadoop方案后,整体数据量在千万级,有些省例外,到了亿级。硬件投资改为采购几台PC?Server,硬件投入为几万元。 数据都在库外处理,NOSQL方式,数据库可以改为使用开源数据库MySQL,存放配置信息。这样DB2、Oracle或其它数据库都可以替换掉。 方案2细节: 整体来说,实用hadoop方式或库外标准C开发方式后,可以更有效减少中国移动在硬件上的投入,在数据库的投入。 可以把节省的成本投一部分到应用软件厂商上。这样,中国移动就可以和应用软件厂商实现共赢。这也是IT业界的发展趋势。 至于hadoop方案,客户统一视图标签月表每月生成一次,日表每日按生产一次。生成后为静态数据,每日上班时间数据不会更新,为静态数据。 方案2细节: 基于此特点,可以在每日凌晨把客户统一视图数据加载到hadoop中,白天访问时直接查询数据,速度快,效率高。 数据加载到内存数据库中做查询,我目前用到的是solo+lucene,有的同事用的是MongoDB。 云计算方案,应该是可以考虑借鉴谷歌做搜索查询这块的成功经验。 云计算方案,貌似用流计算也不错。Yahoo?的S4听说挺不错。 微薄友的点评: 得意的那些事儿 大表,谷歌的bigtable是最佳实践blueprint ,思想可以参考。从分表分库转向规模的 bigdata rebalance。这才是所有的性能优化的起源和本质。这里面cap理论和dht算法是技术实现原理。当然mapreduce大大简化了数据的normalize和并行计算。hadoop的出现提供了这些。各种混合架构只是在融合实时处理而已… 不胜人生一场醉PMBAR 每秒上百G的吞吐量,我不认为关系数据库和几台PC服务器能搞的定 微薄友的点评: 风流搞技术 用oracle就麻烦了,最多1000列,超255列,会带来过多IO,非关系型数据库解决此类问题应该在行 原来远去 如果自己采用写程序在内存里面做关联计算,mysql之类只是做数据备份存储,倒是有可能。热数据全在内存里面,只是冷数据需要查一下mysql。冷热处理有些难度。同时内存利用率这块怎样控制,否则很容易爆掉。 自己写,涉及一个distinct,group by之类,秒级计算出结果,困难比较大。 《论中国》 西方战略家思考如何在关键点上集结优势兵力,而孙子研究如何在政治和心理上取得优势地位,从而确保胜利。西方战略家通过打胜仗检验自己的理论,孙子则通过不战而胜检验自己的理论。 亨利·基辛格 个人建议: 平时多积累, “功夫在诗外” 多做SWOT分析 多关注大环境,多从大局出发 做创业、做BI要多眼于未来,产品规划、设计要面向未来,多考虑未来三五年的环境和竞争 《扁鹊见蔡桓公》 BI人学习的榜样 推荐阅读 《浪潮之巅》 《暗时间》 《异类》 《数学之美》 《高效能人士的七个习惯》 彼得·德鲁克的书籍 职业规划 谢谢! 演讲完毕,谢谢观看! 内容总结 电信行业数据挖掘与大数据心得体会。目前已经有很多公司在新浪上做社会化网络数据挖掘,但还可以容纳更多公司。上周,美国小型音乐公司Limited Run宣布他们确信其在Facebook上的广告点击有超过80%来自于机器人程序,并表示将会向Facebook追究此事。/internet/detail_2012_08/160.shtml。//@孙晗:为何说新浪的数据质量高咧。参数可调整,业务人员可以根据业务经验调整。根据url实时分类,做实时内容营销。可以考虑成立投资公司做投资。为了压缩成本,也需要去做去IOE化运动。电信运营商完全可以从零开始,打造一套适应互联网竞争的新一代互联网系统。移动运营商用户资源很丰富,信息也很全。把所有客户统一视图大标签宽表先按地市分表,再按号码分别拆分为10000张表。硬件投资改为采购几台PC?Server,硬件投入为几万元 W W W . W A T
您可能关注的文档
- 用虚拟化技术构建新一代数据中心.ppt
- 田园教授-第1章财务管理的基本理论.ppt
- 由十八大看成品油税费.ppt
- 由水生向陆生转变的过渡动物两栖纲(Amphibia).ppt
- 由供应链发展看现代渠道关系管理.ppt
- 由经济学的角度看穿着(1).ppt
- 由经济学的角度看穿着(ppt 14).ppt
- 由知识挖掘提升商务智能应用(谢邦昌).ppt
- 甲03弹性理论浙大微观经济学张忠根.ppt
- 甲骨文官方OracleEBS系统培训PPT-06采购订单.ppt
- 2023年教师资格之幼儿保教知识与能力通关试题库(有答案) .pdf
- 2024届山东省滕州市南沙河中学中考物理适应性模拟试题含解析.pdf
- 2024(最新)国开本科《公共行政学》形考任务参考题库(含答案) .pdf
- 2023年主治医师之消化内科主治306题库检测试卷A卷附答案 .pdf
- 2023年-2024年国家电网招聘之公共与行业知识题库练习试卷B卷附答案.pdf
- 2022~2023烟草职业技能鉴定考试题库及答案第674期 .pdf
- 2023学年高三上学期第二次月考地理试题含答案 .pdf
- 2023年-2024年施工员之土建施工基础知识高分通关题型题库附解析答案.pdf
- 2023-2024学年全国高中高二下物理教科版月考试卷(含解析) .pdf
- 2024初中地理七年级上第三章天气与气候综合复习题(三十三).pdf
最近下载
- 开放系统11838《公共政策概论》期末机考真题及答案(第103套).pdf
- 信息论与编码(第3版)陈运课后习题答案.pdf
- 《给排水与采暖工程施工工艺标准(ZJQ00-SG-010-2016)》.pdf
- (4.5气象灾害之)台风教学设计一、教材分析本单元内容在整个高一.doc
- 电大一网一《网络安全技术》形考任务二(实验4、5、6,三选一,权重25%,需辅导教师评阅)作业2.doc VIP
- 2024年中考数学复习:常用数学思想方法讲义.pdf VIP
- 英语句子种类与类型.pptx VIP
- 超市应急预案(通用12篇).docx VIP
- 椭圆弦长公式(精品·公开课件).ppt VIP
- 办公楼装饰装修工程施工组织设计.pdf VIP
文档评论(0)