- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据“新一代信息技术系列丛书信息技术(电子信息类)第二章
01大数据概述
大数据概述一、数据大数据是互联网时代的产物,用于海量的、各种类型的数据存储、处理与分析,这些数据根据结构分类可划分为3种:结构化数据(如RDD、SOL、JSON、NoSQL、表格数据等)、半结构化数据(如日志文件、XML文档、JSON文档、E-mail等)和非结构化数据(如办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等)。半结构化数据半结构化数据是一种弱化的结构化数据形式,它并不符合用关系数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,该标记用来分隔语义元素及对记录和字段进行分层,数据的结构和内容混在一起,没有明显的区分。结构化数据非结构化数据结构化数据也称为行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系数据库进行存储和管理。这类数据的本质是“先有结构,后有数据”。是没有固定结构的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。相较于结构化数据有比较成熟的分析工具,用来挖掘和分析非结构化数据的工具正处于萌芽和发展阶段。
4v大数据的特征大数据概述二、大数据的内涵和外延2011年,IDC将大数据重新定义为:在大数据原有的三维特征--数量、多样、速度基础上,增加了另一个新的特征--价值。IDC强调:“目前,对于庞大的数据量。通过经济的方式,极速发掘、获取和分析处理的技术,进而提炼获取价值,这是大数据新时代的专属。”1234具备超出典型数据库软件收集、存储、管理和分析能力的数据集容量大(Volume)具备快速、实时的数据处理能力;大数据的采集、处理和计算速度要快速度快(Velocity)具备从稀疏的数据中挖掘高价值内容的意义价值高(Value)具备多样性的结构化、半结构化、非结构化等多种类型的数据形式多样性(Variety)4V
大数据概述二、大数据的内涵和外延大数据、云计算、物联网之间的关系大数据、云计算、物联网三者的概念一直保持着密不可分的联系,伴随着三者技术的日臻成熟与应用的遍地开花,以及伴生的新一代信息技术的快速发展,我们已经由IT时代逐步过渡到DT(DataTechnology)时代。云计算应用为大数据技术的发展提供了一定的数据处理平台和技术支持,也为物联网提供了海量数据存储的保障。大数据为云计算应用提供了数据环境,也为物联网产生的数据提供了强大的分析助力。物联网为云计算应用平台提供了无限的应用空间,也极大地推动了大数据技术的广泛应用。(1)(2)(3)
大数据概述三、大数据处理的一般流程和面临的挑战1大数据处理的一般流程是指通过对互联网、系统运行日志、文件系统、移动端用户、传感器等不同渠道获取各类大规模、异构、多源的数据。数据预处理是指对采集到的同构、异构数据进行预处理,包括消除噪声数据、缺失值数据、冲突数据等的影响。是指人们对数据进行收集、组织、存储、加工、传播和利用的一系列活动总和。数据管理经历人工管理、文件管理、数据库管理3个阶段。数据分析是大数据处理与应用的关键环节,决定了大数据的潜在价值,以及分析预测结果的应用准确性。是指将大数据分析与预测结果以图形、图像等直观方式显示给用户,并可与用户进行交互处理。是指将经过分析、处理后挖掘得到的结果应用于管理决策、战略规划等过程,它是对大数据分析结果的检验与验证。数据采集数据预处理数据管理数据分析数据可视化数据应用
大数据概述三、大数据处理的一般流程和面临的挑战2大数据面临的挑战大数据规模带来的挑战通过数据采集获取的大量数据经过预处理后,需要被存储、管理起来,并根据数据查询、分析任务的需求进行数据加工和计算,并满足高时效性特征,这样对数据存储就带来了较大的压力。应对规模性问题,可以采用分布式系统来解决,通过使用多台计算机来分担存储和计算任务,将数据存储在不同节点,并将计算任务分解到不同的计算节点并发执行,这些相互协作的存储和计算节点通过高速网络互联起来,进一步通过管理有效调度存储和计算任务。大数据安全面临的挑战大数据所存储的数据量非常巨大,往往采用分布式的方式进行存储,而由于分布式存储的路径视图相对清晰、数据量过大,所以数据保护机制相对简单,黑客容易利用相关漏洞实施不法操作,造成安全问题。由于APT攻击具有强针对性,且攻击时间长,所以一旦攻击成功,大数据分析平台输出的最终数据均会被获取,容易造成较大的信息安全隐患。
02数据采集与治理
数据采集与治理一、大数据来源与多源数据采集方式大数据采集技术通过RFID数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化、非结构化的海量数据。这些海量数据的种类多、类型繁杂、数据量大、产生的速度快,
您可能关注的文档
- 信息技术(电子信息类) 教案 第7章 区块链.docx
- 信息技术(电子信息类) 教案 第8章 智能制造.docx
- 信息技术(电子信息类) 教案 第6章 工业互联网.docx
- 信息技术(电子信息类) 教案 第5章 物联网.docx
- 信息技术(电子信息类) 教案 第4章 现代通信技术.docx
- 信息技术(电子信息类) 教案 第3章 人工智能.docx
- 信息技术(电子信息类) 教案 第2章 大数据.docx
- 信息技术(电子信息类) 教案 第1章 云计算.docx
- -信息技术(电子信息类) 课程标准.docx
- 信息技术(电子信息类)课件 工业互联网.pptx
- 2024年陕西咸阳亨通电力(集团)有限公司供电服务业务部直聘用工招聘145人笔试参考题库附带答案详解 .docx
- 2024年中建四局土木工程有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年四川雅茶贸易有限公司公开招聘和考察聘用人员3人笔试参考题库附带答案详解 .docx
- 2024年中国烟草总公司辽宁省公司公开招聘拟录用人员(166人)笔试参考题库附带答案详解 .docx
- 2024江苏连云港中诚物业管理有限公司招聘工作人员1人笔试参考题库附带答案详解 .docx
- [毕节]2025年贵州毕节市引进人才649人笔试历年参考题库附带答案详解.docx
- 2024年度中国东航技术应用研发中心有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年福建省厦门盐业有限责任公司春季人才招聘1人笔试参考题库附带答案详解 .docx
- 2024年山东省环保发展集团绿能有限公司职业经理人招聘2人笔试参考题库附带答案详解 .docx
- 2024年安徽滁州郊源阳光电力维修工程有限责任公司招聘41人(第一批次)笔试参考题库附带答案详解 .docx
文档评论(0)