自下而上的数据仓库构建方法.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自下而上的数据仓库构建方法

自下而上的数据仓库构建方法 童小军(XiaoJun Tong) 2006 来北京从事搜索引擎研发工作 [思考搜索的智能?] 2007 ~2008 在 FeedSky 从事博客搜索研发 (Web2.0) 2008 ~至今 北京暴风网际 搜索研发主管 2010 ~2012 对外经济贸易大学 UIBE 国际商学院 企业管理研究生[在读] 微博:/tongxiaojun MSN :tongxiaojun@ 2008 rsync ,log文件, java分析, jsp 程序 2009 BI,数据仓库,syslog-ng,perl/python 2010 [4w + r = 3h],闭环反馈,数据决策,报表驱动 2011 管理会计,内部成本/收益核算[PV/$],ISO9001,PMI [OPM3] [思考]数据统计需求和本源? 需求/本源 ? OPM3模型第1维 成熟度的4个梯级分别是: 标准化的 (Standardizing) 可测量的 (Measuring) 可控制的 (Controlling) 持续改进的 (Continuously Improving) [思考] 需求/本源 [简易的智能结构] [需求] -- [展现] -- [分析逻辑] -- [数据结构] 变化可能 ----- 越到底层越少 修改成本 ----- 越到底层越高 [数据 构建思路 ] [抽象分析] -- [总结归纳] -- [数据结构] -- [各类逻辑] -- [业务需求] 保留全部可能性 -- 总结需求的组成基本变量 -- 总结固定逻辑和结构 -- 设计满足各类需求的系统 1. 数据公式:[4w+r = 2h] 2. 实时汇总:[js--nginx+perl-- syslog-ng -- python/perl -- db] 3. 存储格式:[一日一表] 4. 统计方法:[2sql 方法] 5. 图表展现:[模板引擎] 1. 一日一个表结构,每日凌晨压缩 2. 表结构 [Mysql MyISAM ] 3. 少量索引 4. 压缩工具: myisampack 压缩 40% - 50% [自读] 5. 举例: search_log click_log数据集市[db] -- python -- data.file -- gnuplot + 绘图配置 -- img + data -- mail gnuplot 帮助: /dsectest/dsec_cn/gnuplot/ 方案: sql + 配置 == 数据 + 曲线 集成环境: 桌面工具 + 方案存储 + 统计展现 修改决策 -- 研发测试 -- 上线 -- 数据 [单一决策,周期长,影响整体稳定性] 修改决策 -- 研发测试 -- 分流系统 -- 正式环境 -- 数据 [支持多路决策,周期端,影响小,心理成本低] -- 小版本1 -- 数据 -- 小版本2 -- 数据 思考那些指标影响了一个数据系统的性能? 以上思路在那些方面改善了这些指标。 反馈周期? 决策有效性? 反馈成本? 题外话 题外话: [个人的一个发现] 关于海内外互联网 alexa 排名总结 . Alexa 排名显示: 中国本土互联网繁荣。 Alexa 排名比例: 500强:12.6% 200强:12.5% 100强:13% 位美国后。 中国本土应用遍地开花。业务涵盖 搜索 门户 IM 电子商务 视频分享 微博 等领域 。而其他国家用户多访问美国服务。 数据来源: /alexa-static/top-1m.csv.zip 因语言[汉 英], 政策差异较大[开放/半封闭]: 互联网会出现两个极点! 一个在美国,一个在中国。 QA 童小军(XiaoJun Tong) 微博:/tongxiaojun 招聘广告 - 暴风: 让享受电影更简单 暴风影音诚聘P2P高级研发工程师 精通C/C++,4年或以上P2P开发经验, 对现行P2P软件的客户端及服务端的架构设计有一定了解, 对某款P2P产品有深入了解更佳。 有在线视频点播类产品开发经验者优先, 有意者请发送简历 hr@ 请在标题处注明来源。 —— 思考数据统计系统的需求/本源 —— 寻找一种简易统计分析思路 —— 尝试一种简单简简易统计的简单实现和应用 童小军 (XiaoJun Tong) [暴风搜索] 数据平台发展几个阶段 [思考] 数据统计,分析的需求/本源? 使用 列举类推法 思考 [思考] 需求/本源 [举例:组织结构] [思考] 需求/本源 [举例: 质量优化] [思考] 需求

文档评论(0)

zilaiye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档