2025年大数据导论.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

君子忧道不忧贫。——孔丘

第一章绪论

1.结构化数据:指具有较强的结构模式,可以使用关系型数据库表示和存储的数据。

2.半结构化数据:是一种弱化的结构化数据形式,它并不符合关系型数据模型的要求。但

仍有明确的数据大纲,包含相关标记,用来分割实体以及实体的属性。

3.非结构化数据:日常生活中接触到的数据大多数数据都属于非结构化数据。非结构化数

据没有固定的数据结构,或难以发现统一的数据结构。各种存储在文本文件中的系统杂

志、文档、图像、音频等数据都属于非结构化数据。

4.元数据:信息是描述一个数据集本身特征的数据。

5.弱结构化数据

10

6.最基本的数据单位——字节(Byte,B);相邻两个单位之间相差2=1024.

7.4V特征:规模庞大、种类繁多、变化频繁、价值巨大且密度低。

8.规模庞大:数据集相对于现有的计算和储存能力而言,规模庞大。

9.种类繁多:在大数据面对的应用场景中,数据种类繁多。可能同时覆盖结构化、半结构

化和非结构化的数据。

10.变化频繁:数据多刻画的事物状态在频繁、持续的变化。

11.价值巨大且密度低:在大数据中,通过数据分析,在无序数据中建立关联可以获得大量

高价值的、非显而易见的隐含知识,从而具有巨大价值。

12.思维模式的改变:

采样与全样:尽可能收集全面而完整的数据

精确与非精确:宁愿放弃数据的精确性,也要尽可能收集更多的数据。

因果与关联:基于归纳得到的关联关系与逻辑推理的因果关系同样具有价值

13.3I特征:近似性、增量性、归纳性

14.Iaas:基础设施即服务——最基础

Paas:平台即服务——中间

Saas:软件即服务——直观呈现出来的

第二章数据采集与治理

1.大数据的来源:

对现实世界的测量:通过感知设备获得数据。

如应用服务器日志、传感器数据、科学仪器产生的数据、摄像头监控数据、医疗影像

数据、RFID和二维码或条形码扫描数据。

人类的记录:由人录入计算机形成的数据。

计算机生成:计算机通过现实世界模拟等程序生成数据

2.数据采集:从真实世界对象中获得原始数据的过程

3.根据数据采集方式的不同可分为:基于拉和基于推

4.基于拉的方法:数据由集中式或分布式的代理主动获取

5.基于推的方法:数据有源或第三方推向数据汇聚点

6.常用的数据采集方法:采集物理世界信息的传感器、采集数字设备运行状态的日志文件、

其身正,不令而行;其身不正,虽令不从。——《论语》

采集互联网信息的网络爬虫以及采集人所了解信息的众包

7.数据离散化:把连续型数据且分为若干“段”,从而将连续的数据转化为离散的数据。

8.离散化方法:

等距:将连续型变量的取值范围均匀划分成n等分,每份的间距相等。

等频:把观察点均匀分为n等分,每份内包含的观察点数相同。

优化离散:把自变量和目标变量联系起来考察。

注:切分点是导致目标变量出现明显变化的转折点。

9.数据集成:是把不同来源、格式、性质的数据在逻辑上或物理上有机地几种,通过一种

一致的、精确的、可用的表示法,对同一种现实世界中实体对象的不同数据做整合的过

程。

10.根据数据集成的方式不同:传统数据集成和跨

文档评论(0)

131****3947 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档