网站大量收购闲置独家精品文档,联系QQ:2885784924

数据管理与大数据.pptx

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;;5.1数据与数据模型;5.1.1数据

;5.1.2数据模型

;5.1.3概念数据模型;概念数据模型的表示方法;5.1.4结构数据模型

;统称为非关系数据模型;层次模型是满足如下两个条件的集合:

1.有且只有一个根节点

2.除根节点外其他节点有且只有一个双亲节点。

3.各节点之间都是一对多或一对一联系。;层次模型是满足如下两个条件的集合:

1.网状数据模型允许有多个节点无双亲,

2.允许每个节点有多个双亲。;3.关系模型;关系的基本运算;连接:将两个关系中的元组按指定条件组合,生成新的关系。;5.2数据管理技术;5.2.1数据库;2.数据库技术的新发展;5.2.2数据仓库

1.什么是数据仓库

;(2)集成

数据仓库中的数据是在对原有分散的数据库数据提取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。相关数据越完整,得到的结果就越可靠。因此,对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。

(3)稳定

数据仓库中的数据一旦被写入就不再变化,用户只能通过分析工具对其进行查询和分析,不能修改或删除,数据仓库中的数据对终端用户来说是只读的、稳定的。

(4)随时间变化

数据仓库中的数据通常是历史数据,记录了企业从过去某一时点到目前的各个阶段的信息,因此数据仓库中的数据都具有时间维度。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。;2.数据抽取、转换和装载;5.2.3数据挖掘

1.什么是数据挖掘

;(1)商业理解

(2)数据理解

(3)数据准备

(4)建立模型

(5)模型评估

(6)结果部署

;5.3数据处理;5.3.1数据处理方式

;5.3.2批数据管理系统;特点:

①数据实时到达,到达速度较快。

②数据到达次序独立。

③数据规模庞大,无法预知数据的大小。

④数据一经处理,除非进行存储,很难再次获取。

典型系统:Apache公司开发的Storm

Storm特点:免费开源、分布式、高容错、实时计算系统。弥补了Hadoop批处理所不能满足的实时要求,令持续不断的流计算变得容易。经常用于实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。

;5.4大数据与云计算;5.4.1大数据下的隐私

;2.大数据的4V特征

;1.什么是云

把本地的数据、资源、计算和管理运营都放到远程的服务器中,通过网络进行连接和使用,就成为云存储、云计算和云服务。

目前的云分为公有云、私有云和混合云。

2.云计算的定义

美国国家标准与技术研究院的定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源池,其中的资源(网络、服务器、存储、应用软件和服务)能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。

;公有云是指云服务提供商为用户提供能够使用的云,用户可通过Internet使用。核心属性是共享资源服务,云服务提供商有时会通过技术手段将一台物理服务器分割为多台虚拟服务器,租给不同的用户使用。目前政府推行的“企业上云”,就是鼓励企业接入几家著名的公有云平台,以节约企业成本提高效率。目前国内较为出名的公有云平台包括阿里云、百度云、华为云、腾讯云等。

;3.云计算的特征

;5.4.3大数据下的隐私

;5.5大数据应用;5.5.1互联网领域中的大数据应用

;2.网络广告

;通过对微信原始数据(包括个人填写的信息、网络行为、社交关系等)进行提取和分析,得到用户的属性和各种特征,比如居住地、年龄、是否结婚、是否正在旅游等。这样一个个的用户在系统里就有了各自丰富的特征,这个过程形成了用户画像。

;斑马系统的典型应用就是朋友圈广告人群定向投放系统。;5.5.2生活中的大数据应用;图5-20展示了在满足最小支持度和置信度阈值情况下的菜品关联分析结果,其中圆圈代表两个菜品之间的关联性,圆圈的大小表示支持度的强弱,“LHS”标示的菜品是关联规则的前提,“RHS”则是关联规则的结论。;图5-21为2~3人火锅类菜品关联情况分析。图中的灰色双环表示菜品,虚线连接的两端菜品具有一定的关联性(虚线长度与关联度强弱无关),推荐套餐则用黑色的双环和黑色的实线来体现。;2.文化;5.5.3未来大数据

;小结;感谢观看!

文档评论(0)

专注于各类教育类资料、资格考试类资料、实用模板类资料、行业资料等十余年。

1亿VIP精品文档

相关文档