- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自制PPT摘要
大数据应用的技术体系及潜在问题 报告人:曹瑞 2017年04月07号 大数据概述 目录 大数据应用的技术体系 大数据应用所面临的问题 4. 总结 1.1 大数据的定义 维基百科对大数据的定义是,所涉及的资料量的规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的各种资讯。 主流定义为3V,即规模性(Volume),多样性(Variety)和高速性(Velocity)。所谓规模性,就是数据的量达到了一定的高度,无法通过当前主流工具来及时处理;多样性指的是对于即将要处理的数据类型,除了有结构化的以外,还有半结构化和非结构化的,增加了操作的复杂性;高速性是指数据的到达与处理必须及时高效,不允许较长的延迟。除此之外,隐私性与有价值性同样是大数据的主要特征。 1 1.2 大数据带来的机遇和挑战 随着大数据时代的到来,其中隐藏的商机也被各路商家发现和利用。美国Target百货公司通过一套客户分析工具,可以对顾客的购买记录进行分析,并随后通过购物手册的形式向顾客推荐一系列可能需要的商品;“京东”、“天猫”和“易购”等购物网站将其海量商品按照各种方式进行分类和推荐,大大增强了网站的可用性。 不单是商家,大数据处理技术也给普通用户的日常生活带来了方便性和可靠性。购物网站可以使用户足不出户便可购买到廉价优质的商品,地图软件让人们出门再也不用担心迷路的问题,“微信”、“微博”使得人们随时随地能够跟亲人、朋友联络交流,各种互动娱乐软件帮助人们打发无聊地时光等等。 1.3 大数据处理流程 大数据处理流程包括:数据获取、数据集成、数据分析和解释3个阶段。 数据获取阶段主要是完成对外界数据源的接收和记录操作。其中对大数据的接收方式主要有传感器获取、网页点击获取、移动设备上应用服务的获取以及RFID获取等;对大数据的记录主要完成对元数据的选择,以便构建所需要的数据结构。 数据集成阶段主要完成对已接收数据的抽取、清洗和贮存等操作。 1)抽取:由大数据的定义可知,获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。 2)清洗:对于大数据,并不全是有价值的,有些数据井不是我们所关心的内容,而另一些数据则是完全错误的干扰项,如何“去噪”从而提取出有效数据对我们来说是个巨大挑战。其中一种做法是设计一些过滤器,通过某些规则将那些无用错误的数据过滤出去,防止对最后的分析工作产生影响。 3)贮存:将初步处理过得数据进行有效的存储至关重要,若是仅仅将这些记录随便地放入一个数据仓库中,将会造成其访问性受到障碍,从而导致了数据的难以复用。设计一个合适的数据库,可以有效地解决难以复用问题。 数据库的选择可以多种多样,针对特定数据设计的特定数据库将会更加高效、适用。 数据分析和解释阶段:当用户提出查询请求时,我们需要做的就是进行及时地分析与建模,并将结果以用户可接受的方式返回给用户。这一阶段的用户查询可以是多种多样的,不同的查询输入应该得到对应的结果,即使面对用户的错误查询也应该给出相应的错误友好处理。 大数据应用的技术和系统包括: 云计算及其编程模型MapReduce 大数据获取技术 面向大数据处理的文件系统 数据库系统 大数据分析技术 2 TEXT HERE TEXT HERE TEXT HERE TEXT HERE 云计算及其编程模型MapReduce 云计算定义:一个大规模的由规模经济驱动的分布式模型,位于其中的抽象的、虚拟的、动态可扩展的、可管理的计算能源、存储、平台、服务等通过因特网交付给外围客户。云计算能为大数据提供强大的存储和计算能力,可以迅速、方便地为大数据提供服务,另一方面,大数据的处理需求也为云计算提供了更多更好地应用场景。由此,云计算作为大数据的支撑技术而倍受业界关注。 2004年,谷歌公司提出的MapReduce技术,以其利用大规模廉价服务器以达到并行处理大数据的目的而倍受学术界和工业界的关注,广泛应用于机器学习、数据挖掘等诸多领域。 基于MapReduce的大数据分析处理研究也在不断深入,MapReduce作为一种非关系数据库的数据管理工具代表,克服了关系数据库扩展性方面的不足,将计算推向数据也迎合了大数据时代的内在需要,成为大数据处理的基本工具。 MapReduce对于大数据处理的基本构思是分而治之,将大数据任务分解为多个子任务,将得到的各个子结果组合并成为最终结果。 MapReduce对大数据的处理可抽象为两个主要阶段,Map阶段先对初始的键值(Key/Value)对进行处理,产生一系列的中间结果(Key/Value)对,然后再通过Reduce阶
您可能关注的文档
最近下载
- 【高分刷题题库】价格鉴证师《价格鉴证案例分析》历年真题详解历年真题2019年价格鉴证师《价格鉴证案例分析》真题及详解案例分析题.pdf VIP
- 天一大联考河南省2025—2026学年(上)高三阶段性检测物理含答案.doc VIP
- 《淘宝金融合作方案》课件.ppt VIP
- 天一大联考河南省2025—2026学年(上)高三阶段性检测英语含答案.doc VIP
- 天一大联考河南省2025—2026学年(上)高三阶段性检测数学含答案.doc VIP
- 天一大联考河南省2025—2026学年(上)高三阶段性检测生物含答案.doc VIP
- 小班数学活动串木珠.pptx VIP
- 天一大联考河南省2025-2026学年(上)高二年级秋季检测生物+答案.pdf VIP
- PLC应用技术 第3版 项目五 自动送料装车控制.ppt VIP
- DBJ50_T-037-2017 烧结页岩多孔砖和空心砖砌体结构技术标准.docx VIP
原创力文档


文档评论(0)