第五章 数据处理和可视化表达.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第五章数据处理和可视化表达POWERPOINTDESIGN

CONTENTS目录大数据相关内容01数据采集方法02数据的存储和保护03数据分析04数据可视化表达05总结06

POWERPOINTDESIGN大数据相关内容PART01

大数据概念

定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉管理和处理的数据集合。来源阐述阐述大数据的主要来源:互联网应用、用户行为、物联网设备等大数据概念

4V特征大量(Volume):数据规模巨大

多样(Variety):数据类型繁多(结构化、半结构化、非结构化)

低价值密度(Value):数据价值高但密度低,需挖掘

高速(Velocity):数据产生和处理速度极快互联网思维角度特征样本趋于总体:分析全体数据而非抽样

精确让位于模糊:接受不精确,把握大势

相关性重于因果:关注“是什么”而非“为什么”存储与计算角度特征分布式存储:数据分散存储在大量服务器中

分布式并行计算:将计算任务拆分,多台计算机同时处理大数据特征

积极影响大数据使人们日常生活更为便捷;方便支付、出行、购物与产品推介、看病与诊病等。消极影响大数据对人们日常生活产生的负面影响:个人信息泄露、信息伤害与诈骗。大数据影响

POWERPOINTDESIGN数据采集方法PART02

说明数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据采集法。方法概述

在信息系统中,系统日志是记录系统中硬件、软件和系统问题的信息文件。定义操作系统日志、应用程序日志、安全日志日志类型在目标主机安装代理程序-定向传输到日志服务器过程系统日志采集法

特点可采集图片、音频、视频等非结构化数据过程从初始URL开始-抓取数据-结构化存储定义网络数据采集是指通过网络爬虫或网站公开API(应用程序接口)等方式从网站上获取数据信息。核心工具网络爬虫从一个或若干初始网页的URL(统一资源定位符)开始抓取网页中需要的数据,直到满足系统的一定停止条件。网络数据采集法

企业生产经营、科学研究等保密性要求高的数据适用场景01通过合作、特定系统接口等方式收集方法02其他数据采集法

POWERPOINTDESIGN数据的存储和保护PART03

0102本地存储数据存储在本地物理设备上云存储定义:数据存储在虚拟的逻辑模型中,物理上跨地域分布

特点:统一、灵活、安全的“云存储服务”数据存储

云存储

目的防止数据被破坏、更改、泄露或丢失基础防护杀毒软件、防火墙彻底有效方法拷贝、备份、复制、镜像、持续备份核心技术数据加密,加密技术通常分为对称式加密和非对称式加密两大类。对称式加密指加密和解密用的是同一密钥。数据保护(技术手段)

0201大数据时代的隐私挑战:信息传播快,易泄露隐私挑战技术手段:数据精度处理、访问控制、人工加扰、数据匿名

提高自身保护意识

道德与法律约束解决办法数据保护(隐私与意识)

POWERPOINTDESIGN数据分析PART04

从数据中探索结构和规律,构建模型,转化为知识定义为诊断过去、预测未来发挥作用。作用数据分析概述

数据预处理任务内容发现处理缺失值与异常数据、绘制直方图、求描述性统计量(最大值、最小值、极差)特征探索

定义关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。基本算法步骤扫描数据,统计频率

构建候选项集C1,计算支持度

筛选不小于最小支持度的项,形成频繁项集L1

连接频繁项集,生成新的候选项集,循环直至形成最大频繁项集关联分析L1通常代表1-项集,即只包含一个元素的项集。构建候选项集C1是Apriori算法中的核心步骤之一,指生成包含单个元素的所有候选项集。

定义一种探索性分析,无需预先分类标准,自动分类经典算法步骤K-平均算法(K-Means)随机选择K个点作为初始中心

计算各点与K中心的距离,归入最近簇

重新计算聚簇中心点

迭代直至中心点稳定或达到设定次数聚类分析

聚类分析

基于样本数据训练分类器(模型),将未分类数据映射到特定类别定义离散预测=分类,连续预测=回归分类vs回归基于统计学,通过训练样本归纳分类函数贝叶斯分类数据分类

分类vs回归分类:目标是预测一个离散的、有限的类别标签。简单说,就是“分到某一类”。例如:判断邮件是“垃圾邮件”还是“非垃圾邮件”;判断图片是“猫”、“狗”还是“汽车”;诊断一个肿瘤是“良性”还是“恶性”。回归:目标是预测一个连续的数值。简单说,就是“预测一个具体的数值”。例如:预测明天的气温(如25.6℃);预测房子的售价(如285.6万元);预测公司的季度营收(如1.5亿元)。数据分类

最常用的贝叶斯分类器叫?「朴素贝叶斯」。它之所以“朴素”,是

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档