- 1、本文档共48页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据应对之道-HP EIM解决方案;Agenda;定义“大数据”是一个术语,用于描述数据集,该数据集的大小超过了一般的软件工具在可以容忍的时间内捕获、管理和处理数据的能力。“大数据”的大小是一个不断移动的目标,目前的范围为在一个单一数据集中从很小的几十个TB到很大的PB级数据。 例子Web日志,FRID,传感器网络,社交网络,互联网文本和文档,互联网搜索索引,呼叫细节记录,基因组学,天文学,生物学研究,军事侦察,医疗记录,录像档案和大规模电子商务。;Agenda; Data engine;Agenda;数据库先驱 – Michael Stonebraker;海量数据实时分析需要专门的分析系统;高效能、低成本独创的纯列式数据库;Vertica技术特点;真正的MPP架构-线性扩展;真正的MPP架构-线性扩展;真实的列存储架构:
压缩和高效读取
排序存储
在磁盘上按列存储
基于列优化
并行执行引擎
优化加载
可直接对编码(Encoded)数据进行操作
让数据更接近CPU;强大的数据压缩;高数据压缩比;混合负载 - 实时加载和查询;灵活的数据分布 - 提升海量数据处理性能;目前拥有超过500个客户并快速扩充;全球最大的在线社交游戏供应商.
全球第二大的新创公司, 市值130亿美金. 95%的资产为虚拟货物.;业务挑战:
如何识别个人需求和潜在的购买需求?
如何分析社交关系而去吸引一个新的客户?
无法预测数据大小
新需求层出不穷
技术挑战:
装载数据量极大
存储的数据巨大、且每日增量非常大
在实时数据过程中,还需要处理大量的数据查询请求
;Zynga评估了所有的DW厂商包括Teradata, Oracle, Greenplum等后,最终选择了Vertica
为何选择Vertica:
真正的MPP架构基于PC服务器大数据处理引擎
高压缩比:5:1
高加载性能,采用trickle方式加载数据其数据延迟不超过1分钟
在混合场景中,其查询性能优异
易于部署和维护
扩展性极佳
;目前Zynga:
2套230个节点的Vertica集群在生产环境,2套60节点的Vertica用于开发.
3 PB data.
每天新增10T数据,新增数据要求1分钟以内可用于分析.
4千万在线用户要访问数据.
只有一名全职DBA负责生产和开发的Vertica的维护
;;Vertica北美地区典型电信行业客户;Agenda;信息趋势的挑战;理想的系??构架 - 智能信息操作层;;;Bloomberg(彭博社);
涵盖所有20万台多语言用户终端
分类、查询、提醒、
概念聚类、热点图示、摘要生成,针对 :
所有的新闻(每天20万条)
每天4000万封电子邮件
每天126万条贸易方面的提醒
210万个目录节点
电子邮件提醒反映时间保证小于100毫秒
每秒处理1000封电子邮件 ;Bloomberg全方位内容处理平台;Eduction Types;;;e.g. /^(0[1-9][\.\-\s]+[1-9]{2}[\.\-\s]+[1-9]{2}[\.\-\s]+[1-9]{2}[\.\-\s]+[1-9]{2}|0[1-9][1-9]{8})$/
;Conceptual Matching;Adaptive Eduction;Bloomberg多种数据源的内容;人工根据内容体系定义
初始训练
文档训练
词汇权重调节
分类参数调节
。。。;Bloomberg行业频道;;;专利;自动聚类信息岛图;自动聚类信息趋势图;DAH(分布式请求服务器)
DIH(分布式索引服务器)
DiSH(分布式管理服务器)
Dashboard (分布式管理界面);Q/A
文档评论(0)