- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析一体机大数据分析一体机全文共31页,当前为第1页。目录1大数据概述研发思路一体机概述应用分析342大数据分析一体机全文共31页,当前为第2页。大数据的特征体量Volume非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的4V特征多样性Variety大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义价值密度Value大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)速度Velocity实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效“4V”是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。大数据分析一体机全文共31页,当前为第3页。数据分析的价值大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),属于IT 领域新一代的技术与架构 用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合大数据分析一体机全文共31页,当前为第4页。一些相关技术分析技术:数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等存储结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo的S4)大数据分析一体机全文共31页,当前为第5页。领域共性问题技术架构的挑战:网络架构、数据中心、运维的挑战:1、对现有数据库管理技术的挑战传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。2、经典数据库技术并没有考虑数据的多类别(variety)SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3、实时性的技术挑战:一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,目前的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。大数据分析一体机全文共31页,当前为第6页。大数据处理技术手段CustomizedSolutionsBI/ ReportingDatabase /Data WarehouseSplunkSequenceJoinExtractString TruncateString ConvertAggregateIndexingFilterSortCountMobile AppsCall LogMediaWeb ClickstreamSocial MediaMachineSensor Data大数据分析一体机全文共31页,当前为第7页。较常见的解决方案Big Data 运算与存储,单一架构解决存储与运算合一数据分享数据检索大数据储存大数据处理数据分析分布式存储横向扩容(Scale-out) 架构分布式软件架构并行计算框架数据展现大数据分析一体机全文共31页,当前为第8页。利用Hadoop 的特性并行计算 + 分布式存储传统并行计算架构运算存储计算与存储一体,计算向数据靠拢,高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖(share-nothing),具有高系统延展性 (scale-out)传统存储架构大数据分析一体机全文共31页,当前为第9页。目录1大数据概述研发思路一体机概述应用分析342大数据分析一体机全文共31页,当前为第10页。一体机概念和分类一体机是软件与硬件相结合的集成系统产品,其一般集数据处理、数据传输、数据存储三方面于一体。一体机通过预先集成、测试、优化,能够实现快速部
文档评论(0)