数字素养与技能 课件 第五章 大数据.pptx

数字素养与技能 课件 第五章 大数据.pptx

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第5章 大数据根据工信部规〔2021〕179号文《关于印发“十四五”大数据产业发展规划的通知》,明确指出数据是新时代重要的生产要素,是国家基础性战略资源。大数据产业是以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,是激活数据要素潜能的关键支撑,是加快经济社会发展质量变革、效率变革、动力变革的重要引擎。据测算,我国大数据产业规模年均符合增长率超过30%,2020年超过1万亿元,发展取得显著成效。

学习目标了解大数据基本知识了解大数据采集来源了解大数据分析与可视化方法

5.1了解大数据基本知识我们身处在大数据的世界当中,据相关机构统计,在互联网世界中的每分钟,微信上大约会发布465200张图片,百度上大约会进行4166000次搜索,美团上大约会有30600次下单,B站上大约会有833000次播放。这些数量巨大且类型多样的数据集,在获取、存储、管理及分析方面,往往无法用传统数据库工具进行管理和处理,我们称这种数据集为大数据。

一、什么是大数据案例引入:2016年3月,电脑程序AlphaGO以4:1的成绩战胜世界围棋冠军李世石。AlphaGO之所以能获胜,是因为科学家在赛前让它学习了人类高手的10万盘棋谱,然后让它下了3000多万盘棋,因此它积累了丰富的围棋对弈经验。而这几千万盘棋的相关数据实际上就是大数据的一种。

一、什么是大数据大数据的定义:大数据(BigData)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

二、大数据的发展历史阶段时间内容萌芽期20世纪90年度-21世纪初随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。成熟期21世纪前10年Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,Hadoop平台开始大行其道。大规模应用期2010年后大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅度提高。大数据的发展经历了三个阶段

三、大数据的特点大数据具备5V特征,具体如下:大量化(Volume):数据的大小决定所考虑的数据的价值和潜在的信息。快速化(Velocity):处理速度快,时效性要求高,需要实时分析而非批量式分析,数据的输入、处理和分析连贯性地处理,这是大数据区分于传统数据挖掘最显著的特征。多样化(Variety):数据类型的多样性,包括文本、视频、音频、图片等各种类型的数据。价值密度低(Value):大数据价值密度相对较低。合理运用大数据,以低成本创造高价值,是大数据时代亟待解决的难题。真实性(Veracity):数据的准确性和可信赖度,即数据的质量。

四、大数据处理的流程大数据处理的四个流程如图所示

四、大数据处理的流程(1)大数据采集:目前行业内有两种解释:一是数据从无到有的过程(Web服务器日志、自定义采集的日志等)叫做数据采集;另一方面也有把通过使用Flume等工具把数据采集到指定位置的这个过程叫做数据采集。(2)大数据预处理:对采集到的数据进行预处理,比如清洗、格式整理、滤除脏数据等,保证数据的质量。(3)大数据统计和分析:通过工具或算法模型,对数据分类汇总,满足企业的数据分析需求。(4)大数据可视化:将分析所得数据进行可视化呈现,一般通过图表进行展示。

5.2了解大数据采集来源早期,大部分医疗相关数据是纸张化的形式存在,而非电子数据化存储,比如官方的医药记录、收费记录,护士医生手写的病历记录、处方药记录,X光片记录、磁共振成像记录、CT影像记录等。随着医疗信息的电子化、平台化等,各医院医疗健康系统积累的数据规模越来越大。再加上个人各种健身、健康可穿戴设备,实时监测收集血压、心率、体重、血糖、心电图等指标。这些各种不同来源、不同格式的数据共同构成了医疗大数据,利用这些数据可帮助人类预防和治疗疾病,对提高医疗质量、降低医疗成本等方便发挥巨大的作用。

数据采集操作1、下载安装“八爪鱼采集器”

数据采集操作2、注册账号并登录

数据采集操作4、将待爬取的网址/newslist/15/1.html粘贴到“网址”框

数据采集操作5、单击第一个通知公告标题,并单击“选中全部相似元素”

数据采集操作6、单击操作提示框中的“文本内容”,即可看到所采集数据的预览数据

数据采集操作7、单击网页底部“下一页”按钮,即可看到操作提示中出现“循环单击下一页”提示,单击“循环单击下一页”。

数据采集操作8、单击右上角的“采集”按钮

数据采集操作9、单击本地采集中的“普通模式”

数据采集操作10、进入实

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档