Spark大数处理系列之Machine Learning.docVIP

下载本文档

2
0
约6.95千字
约 7页
2016-10-21 发布于广东
举报

Spark大数处理系列之Machine Learning.doc

Spark大数处理系列之Machine Learning

Spark大数据处理系列之Machine Learning 超人学院——机器学习和数据科学机器学习是从已经存在的数据进行学习来对将来进行数据预测，它是基于输入数据集创建模型做数据驱动决策。数据科学是从海里数据集（结构化和非结构化数据）中抽取知识，为商业团队提供数据洞察以及影响商业决策和路线图。数据科学家的地位比以前用传统数值方法解决问题的人要重要。以下是几类机器学习模型：监督学习模型非监督学习模型半监督学习模型增强学习模型下面简单的了解下各机器学习模型，并进行比较：监督学习模型：监督学习模型对已标记的训练数据集训练出结果，然后对未标记的数据集进行预测；监督学习又包含两个子模型：回归模型和分类模型。非监督学习模型：非监督学习模型是用来从原始数据（无训练数据）中找到隐藏的模式或者关系，因而非监督学习模型是基于未标记数据集的；半监督学习模型：半监督学习模型用在监督和非监督机器学习中做预测分析，其既有标记数据又有未标记数据。典型的场景是混合少量标记数据和大量未标记数据。半监督学习一般使用分类和回归的机器学习方法；增强学习模型：增强学习模型通过不同的行为来寻找目标回报函数最大化。下面给各个机器学习模型举个列子：监督学习：异常监测；非监督学习：社交网络，语言预测；半监督学习：图像分类、语音识别；增强学习：人工智能（AI）。开发机器学习项目时，数据预处理、清

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Spark大数处理系列之Machine Learning.docVIP