- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
方案2细节: 如果要考虑到硬件成本、分布式部署、开发时间和难度问题,可以接下来优化为采用hadoop方案。 采用hadoop方案后,整体数据量在千万级,有些省例外,到了亿级。硬件投资改为采购几台PC?Server,硬件投入为几万元。 数据都在库外处理,NOSQL方式,数据库可以改为使用开源数据库MySQL,存放配置信息。这样DB2、Oracle或其它数据库都可以替换掉。 方案2细节: 整体来说,实用hadoop方式或库外标准C开发方式后,可以更有效减少中国移动在硬件上的投入,在数据库的投入。 可以把节省的成本投一部分到应用软件厂商上。这样,中国移动就可以和应用软件厂商实现共赢。这也是IT业界的发展趋势。 至于hadoop方案,客户统一视图标签月表每月生成一次,日表每日按生产一次。生成后为静态数据,每日上班时间数据不会更新,为静态数据。 方案2细节: 基于此特点,可以在每日凌晨把客户统一视图数据加载到hadoop中,白天访问时直接查询数据,速度快,效率高。 数据加载到内存数据库中做查询,我目前用到的是solo+lucene,有的同事用的是MongoDB。 云计算方案,应该是可以考虑借鉴谷歌做搜索查询这块的成功经验。 云计算方案,貌似用流计算也不错。Yahoo?的S4听说挺不错。 微薄友的点评: 得意的那些事儿 大表,谷歌的bigtable是最佳实践blueprint ,思想可以参考。从分表分库转向规模的 bigdata rebalance。这才是所有的性能优化的起源和本质。这里面cap理论和dht算法是技术实现原理。当然mapreduce大大简化了数据的normalize和并行计算。hadoop的出现提供了这些。各种混合架构只是在融合实时处理而已… 不胜人生一场醉PMBAR 每秒上百G的吞吐量,我不认为关系数据库和几台PC服务器能搞的定 微薄友的点评: 风流搞技术 用oracle就麻烦了,最多1000列,超255列,会带来过多IO,非关系型数据库解决此类问题应该在行 原来远去 如果自己采用写程序在内存里面做关联计算,mysql之类只是做数据备份存储,倒是有可能。热数据全在内存里面,只是冷数据需要查一下mysql。冷热处理有些难度。同时内存利用率这块怎样控制,否则很容易爆掉。 自己写,涉及一个distinct,group by之类,秒级计算出结果,困难比较大。 《论中国》 西方战略家思考如何在关键点上集结优势兵力,而孙子研究如何在政治和心理上取得优势地位,从而确保胜利。西方战略家通过打胜仗检验自己的理论,孙子则通过不战而胜检验自己的理论。 亨利·基辛格 个人建议: 平时多积累, “功夫在诗外” 多做SWOT分析 多关注大环境,多从大局出发 做创业、做BI要多眼于未来,产品规划、设计要面向未来,多考虑未来三五年的环境和竞争 《扁鹊见蔡桓公》 BI人学习的榜样 推荐阅读 《浪潮之巅》 《暗时间》 《异类》 《数学之美》 《高效能人士的七个习惯》 彼得·德鲁克的书籍 职业规划 谢谢! W W W . W A T S O N W Y A T T . C O M 电信行业数据挖掘与大数据心得体会 夏明武 xiamingwu@ 互联网市场大小 2011中国互联网收入,广告512亿元,增长57% 网络游戏428亿,增长20%;电商7735.6亿,增长68% 行业排头兵净利润率估计,广告35%,网游55%,电商1%,利润分别为179亿,235亿,77亿 假设2012增长与利润水平不变,行业利润分别为广告280亿,游戏280亿,电商130亿 艾瑞咨询 互联网数据挖掘三个方向 广告水军剔除 剔除水军,可以大大减少广告开支、节约成本。这是节流。 商品推荐 这一块可以参考amazon的商品推荐,现在电商都在学amazon的商品推荐,只是都做得不好。这一块做好可以增加销售量。带来真金白银。这也就是开源。 社交网络分析等 现在新浪微薄的数据质量最高,大有可为。目前已经有很多公司在新浪上做社会化网络数据挖掘,但还可以容纳更多公司。 上周,美国小型音乐公司Limited Run宣布他们确信其在Facebook上的广告点击有超过80%来自于机器人程序,并表示将会向Facebook追究此事。/internet/detail_2012_08/16/16845
文档评论(0)