大数据应对之道惠普eim解决方案介绍.pptxVIP

大数据应对之道惠普eim解决方案介绍.pptx

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据应对之道 -HP EIM解决方案;Agenda;定义 “大数据”是一个术语,用于描述数据集,该数据集的大小超过了一般的软件工具在可以容忍的时间内捕获、管理和处理数据的能力。“大数据”的大小是一个不断移动的目标,目前的范围为在一个单一数据集中从很小的几十个TB到很大的PB级数据。 例子 Web日志,FRID,传感器网络,社交网络,互联网文本和文档,互联网搜索索引,呼叫细节记录,基因组学,天文学,生物学研究,军事侦察,医疗记录,录像档案和大规模电子商务。;Agenda; Data engine;Agenda;数据库先驱 – Michael Stonebraker;海量数据实时分析需要专门的分析系统;高效能、低成本独创的纯列式数据库;Vertica技术特点;真正的MPP架构-线性扩展;真正的MPP架构-线性扩展;真实的列存储架构: 压缩和高效读取 排序存储 在磁盘上按列存储 基于列优化 并行执行引擎 优化加载 可直接对编码(Encoded)数据进行操作 让数据更接近CPU;强大的数据压缩;高数据压缩比;混合负载 - 实时加载和查询;灵活的数据分布 - 提升海量数据处理性能;目前拥有超过500个客户并快速扩充;全球最大的在线社交游戏供应商. 全球第二大的新创公司, 市值130亿美金. 95%的资产为虚拟货物.;业务挑战: 如何识别个人需求和潜在的购买需求? 如何分析社交关系而去吸引一个新的客户? 无法预测数据大小 新需求层出不穷 技术挑战: 装载数据量极大 存储的数据巨大、且每日增量非常大 在实时数据过程中,还需要处理大量的数据查询请求 ;Zynga评估了所有的DW厂商包括Teradata, Oracle, Greenplum等后,最终选择了Vertica 为何选择Vertica: 真正的MPP架构基于PC服务器大数据处理引擎 高压缩比:5:1 高加载性能,采用trickle方式加载数据其数据延迟不超过1分钟 在混合场景中,其查询性能优异 易于部署和维护 扩展性极佳 ;目前Zynga: 2套230个节点的Vertica集群在生产环境,2套60节点的Vertica用于开发. 3 PB data. 每天新增10T数据,新增数据要求1分钟以内可用于分析. 4千万在线用户要访问数据. 只有一名全职DBA负责生产和开发的Vertica的维护 ;;Vertica北美地区典型电信行业客户;Agenda;信息趋势的挑战;理想的系??构架 - 智能信息操作层;;;Bloomberg(彭博社); 涵盖所有20万台多语言用户终端 分类、查询、提醒、 概念聚类、热点图示、摘要生成,针对 : 所有的新闻(每天20万条) 每天4000万封电子邮件 每天126万条贸易方面的提醒 210万个目录节点 电子邮件提醒反映时间保证小于100毫秒 每秒处理1000封电子邮件 ;Bloomberg全方位内容处理平台;Eduction Types;;;e.g. /^(0[1-9][\.\-\s]+[1-9]{2}[\.\-\s]+[1-9]{2}[\.\-\s]+[1-9]{2}[\.\-\s]+[1-9]{2}|0[1-9][1-9]{8})$/ ;Conceptual Matching;Adaptive Eduction;Bloomberg多种数据源的内容;人工根据内容体系定义 初始训练 文档训练 词汇权重调节 分类参数调节 。。。;Bloomberg行业频道;;;专利;自动聚类信息岛图;自动聚类信息趋势图;DAH(分布式请求服务器) DIH(分布式索引服务器) DiSH(分布式管理服务器) Dashboard (分布式管理界面);Q/A

文档评论(0)

kfcel5460 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档