24中级经济师-经济基础教材精讲班-郑-003.数据科学与大数据.pdf

24中级经济师-经济基础教材精讲班-郑-003.数据科学与大数据.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

五五、、数数据据科科学学与与大大数数据据

((一一))数数据据科科学学

1、含义:数据科学是一门通过系统性研究获取与数据相关的知识体系的学科

2、研究对象:

数据科学研究是从“数据”整合成“信息”进而组织成“知识”的整个过程,包含对数据进行采集、存储、处理、分析、表现等一系

列活动

数据科学的研究对象是数据研究目标是获得洞察力和理解力,通过对数据的分析,来解释、预测、洞见和决策,为现实世界

服务

((二二))大大数数据据

大大数数据据具具有有“4V”特特性性::

1、数据量大(Volume)

2、数据多样性(Variety):大数据类型繁多,包括

结构化数据、非结构化数据、半结构化数据

((1))结结构构化化数数据据::可以用二维表结构实现表达的数据;简单来说就是数据库比如ERP系统、教育一卡通

【例如】

1IDnameagegender

21LiuYi28male

32ChenEr35emale

43ZhangSan28male

(2)非结构化数据:是指数据结构不规则或不完整,没有预定义的数据,包括文档、文本、图片、报表、图像、音频信息、

视频信息、地理位置等;

(3)半结构化数据:是介于完全结构化数据和完全非结构化数据之间的数据,包括邮件、员工简历等

3、价值密度低(Value):价值密度的高低与数据总量的大小成反比以视频为例,在连续不间断的监控中,有用数据可能仅

有一两秒

4、数据的产生和处理速度快(Velocity):符合“1秒定律”

((三三))数数据据挖挖掘掘

1、数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息

和知识的过程该定义包含以下几层含义:

(1)数据源必须是真实的、大量的、有噪声的;

(2)发现的是用户感兴趣的知识;

(3)发现的知识是可接受、可理解、可运用的;

(4)并不要求发现放之四海而皆准的知识,仅支持特定的发现问题

2、数据挖掘以解决时间问题为出发点,融合了很多学科领域的知识,核心任务是对数据关系和特征进行探索常见的数据挖

掘方法可分为监督学习、无监督学习和半监督学习

根据已有的数据集,训练出模型可以根据自变量数据得到

因变量预测结果的过程监督学习中有两大类典型任务:

监督①分类:通过特征变量确定观测单位所属的类别,因变量是分类变量

学习【例如】根据用户的满意度、财务信息判断用户合约到期后是否会续约

【例如】根据发件人、主题、内容等信息判断邮件是否是垃圾邮件

分类方法:逻辑斯特回归、决策树、随机森林和支持向量机

②回归:通过特征变量确定观测单位因变量的取值,因变量是定量变量

监督【例如】根据钻石的克拉数、颜色、切割工艺等信息预测钻石的价格

学习【例如】根据房屋面积、位置、楼层等信息预测房价

回归方法:线性回归、非线性回归和分位数回归

主要任务是探索数据之间的内在联系和结构

无监督学习中有两大类典型任务:聚类和降维

无监督

①聚类:就是把一组数据按照差异性和相似性分为几个类别,使得同类的数据相似性尽可能大,不同

学习

类的数据相似性尽可能小,跨类的数据关联性尽可能低

常用于客户细分、文本归类、结构分组、行为跟踪等

【提示】与分类不同,聚类要划分的类是未知的聚类是根据观察学习来确定数据之间的关系,因此

无监督是一种无监督学习

学习聚类方法:基于划分的方法[例如k均值聚类算法]、基于分层的方法、基于密度的方法、基于网格的

方法和基于模型的方法

【补充说明】聚类与分类的不同在于,分类预先知道分为了哪几类,而聚类在操作之前并不知道数据可成哪些类别,我们要做

的是将数据集中相似的数据归纳在一起

【例如】通过聚类分析将网购客户划分为互不相交的客户群,以便为不同的客户群推荐不同的目标商品

②降维:是指在不损失过多信息的前提下将N个相关的特征降为k个不相关的特征(其中k

无监督

【例如】根据客户的能力、

文档评论(0)

搬砖松 + 关注
实名认证
内容提供者

各种知识。学习资料、付费课程。商业、金融、经济、管理、文史哲等

1亿VIP精品文档

相关文档