网站大量收购独家精品文档,联系QQ:2885784924

054 大数据分析挖掘技术在电商的应用-黄晖.pdf

054 大数据分析挖掘技术在电商的应用-黄晖.pdf

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
054 大数据分析挖掘技术在电商的应用-黄晖

上海天律信息技术有限公司  内容提要 •应对大数据:方法与趋势 1 •大数据分析挖掘技术 2 •大数据分析与电商应用 3 上海天律信息技术有限公司  应对大数据-1: 公有云 阿里云 ODPS (Open Data Processing Service) 2010年2月第一版上线 集团内部生产机群规模18000台机器 单存储和计算机群最大规模5000台机器 日均处理3000万个作业请求,20万个计算任务 日均读3PB,写1PB数据;日均上传450TB,下载50TB数据 服务淘宝、支付宝、阿里金融等多项集团内部业务 支持淘宝贷款、数据模型、聚石塔等多款产品 目前处于公测阶段,今年2季度正式商用 上海天律信息技术有限公司  应对大数据-2:自建分布式平台 硬件:PC服务器集群 (Google: 百万台服务器) 软件:Hadoop (分布式操作系统,管理服务器群) HDFS (分布式文件系统) MapReduce (分布式管理系统) Hbase、 Cassandra (分布式数据库) Hive (云端数据仓库) Spark (云端内存计算) Markway (分布式分析挖掘) Pig Latin (分布式数据处理语言) Chukwa (分布式数据采集) ZooKeeper (分布式协同工作和安全管理) 应用:开店、存储、Email、OA、ERP、SCM、BI等等  应对大数据-3:虚拟化集群 硬件: 异构硬件的整合,大型机、小型 CRM ERP 其他系统 机、PC机等等 软/硬件分离: 一个硬件运行多个不同操作系统 服务器虚拟化: 在一台物理服务器上 VHCI 创建出多台虚拟服务器 系统虚拟化: VPN 在一台物理机上同时运行 多个操作系统 数据库集群: Virtual Server 多种或单种关系型数据库集群 应用虚拟化: 将应用程序与操作系统解 耦合,为应用程序提供一个虚拟 的运行环境 Virtual Storage 特点: 存储虚拟化、桌面虚拟化、 应用虚拟化  应对大数据-4:内存计算 1.加

文档评论(0)

maxmin + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档