- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
理解大数据实践大数据概述(PPT)
理解大数据,实践大数据
内容
对大数据的理解
拓尔思大数据产品布局和应用实践
反对派认为,我们现在处在一个盲目的大数据崇拜时代
大数据产生的背景
数据的爆发式增长和社会化趋势,新摩尔定律
大数据已经成为一种自然资源
机器数据日益重要
大数据不被利用就是成本
大数据产生的背景
现有的商业软件难以处理大数据的规模和复杂性
获取(capture)
存贮(storage)
搜索(search)
分享(sharing)
分析(analysis)
可视化(visualization)
奥巴马大数据战略
2012年3月29日,白宫发布美国政府的大数据计划
通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究
大数据的4V特性
体量Volume
多样性Variety
价值密度Value
速度Velocity
非结构化数据的超大规模和增长
总数据量的80~90%
比结构化数据增长快10倍到50倍
是传统数据仓库的10倍到50倍
大数据的异构和多样性
很多不同形式(文本、图像、视频、机器数据)
无模式或者模式不明显
不连贯的语法或句义
大量的不相关信息
对未来趋势与模式的可预测分析
深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)
实时分析而非批量式分析
数据输入、处理与丢弃
立竿见影而非事后见效
对大数据的理解
大数据比云计算更为落地
大数据不仅仅是“大”
软件是大数据的引擎
大数据的应用不仅仅是精准营销
管理大数据“易”,理解大数据“难”
1、大数据比云计算更为落地
商业模式驱动
应用需求驱动
云计算本身也是大数据的一种业务模式
2、大数据不仅仅是“大”
多大?
PB 级
比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值
3、软件是大数据的引擎
和数据中心(Data Center) 一样,软件是大数据的驱动力,软件改变世界
大数据生态:软件是引擎
4、大数据的应用不仅仅是精准营销
通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景
消费行业
金融服务
食品安全
医疗卫生
军事
交通环保
电子商务
气象
5、管理大数据“易”理解大数据“难”
虽然大数据是一个重大问题,真正的问题是让大数据更有意义
目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心
非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等
拓尔思大数据产品布局
TRS机器数据挖掘引擎
TRS SMAS 舆情云服务
TRS 大数据管理系统V7.0
TRS 大数据管理系统发展历程
TRS 全文数据库
TRS 非结构化数据库
TRS 大数据
管理系统
TRS 大数据管理系统V7.0
TRS 大数据管理系统V7.0
分布式并行计算、多副本机制、没有单点的高可靠体系架构,兼容Hadoop标准
支持结构化、半结构化、非结构化数据的管理和搜索
支持实时及用户行为数据的高效管理和分析
支持PB级的海量数据管理
支持海量用户的高并发访问(千万级用户、万级并发)
充分释放硬件的潜力(多核、大内存等)
大规模部署的自动化和运行状态监控
创新的多检索引擎机制,提供开放的二次开发接口
数据备份
大数据管理系统
数据存储
开发接口
基于Hadoop的数据分析
CKM文本挖掘与数据挖掘
关联规则与序列模式挖掘
推荐引擎的离线分析
MapReduce
数据库监控
机器数据搜索引擎
用户行为挖掘与推荐引擎
基于时间分段的大数据检索与索引接口
搜索引擎
日志采集监控
数据存储层
数据分析层
日志发送节点
Angent 1
Angent 2
Angent 3
……
Angent n
日志接收集群
Collector 1
Collector 2
Collector 3
……
Collector n
Master管理集群
Master 1
Master 2
Master n
日志采集
TRS 机器数据挖掘引擎
TRS 机器数据挖掘引擎特点
支持主流格式机器数据的实时采集、解析、管理和搜索。
基于时间分段和负载均衡的大数据索引与检索机制。
基于Web的机器数据搜索与分析界面。
兼容Hadoop平台的日志挖掘和用户行为分析。
基于多种推荐模型的在线推荐引擎
大规模部署的自动化和运行状态监控
TRS SMAS功能框架图
舆情管理
服务共享
信息挖掘
信息来源
新闻
论坛
博客
搜索引擎
微博
wiki
自动排重、自动分类、自动摘要、自动分析
舆情分类
热点跟踪
热点统计
微博分析
人物分析
微博运营
趋势分
文档评论(0)