数据治理-数据分析常见算法案例.docx

数据治理-数据分析常见算法案例.docx

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE1

PAGE2

PAGE

数据分析文档

数据分析文档

目录TOC\o1-2

1.机器学习背景知识以及业务架构体系 2

1.1什么是机器学习 2

1.2机器学习业务架构体系 3

1.3机器学习类型与常用算法 4

2.机器学习实验工具PAI介绍 5

2.1机器学习实验工具概述 5

2.2企业级机器学习工具 6

2.3机器学习PAI介绍 6

3.回归算法 7

3.1.应用场景 7

3.2算法原理 9

3.3案例演示 12

3.5时间序列 17

4.分类算法 24

4.1算法简介 25

4.2分类算法应用场景实例 29

4.3应用案例实现 32

5.聚类算法 34

5.1k-means聚类算法简介 35

5.2聚类算法应用场景实例 36

5.3应用案例 39

1.机器学习背景知识以及业务架构体系

1.1什么是机器学习

机器学习也常称作统计学习或模式识别,是一门多领域交叉学科,涉及计算机科学、数学及概率统计、控制论、信息论、生理学、神经生物学及哲学等,其中核心是计算机科学和数学及统计学,可以认为它们组成了机器学习的基础。机器学习通过机器通过统计学算法对大量的历史数据进行学习,从而生成经验模型,利用经验模型指导业务,目前机器学习主要在以下一些方面发挥作用。

营销类场景:商品推荐,用户群体画像,广告精准投放。

金融类场景:贷款发放预测,金融风险控制,股票走势预测,黄金价格预测。

SNS关系挖掘:微博粉丝领袖分析,社交关系链分析。

文本类场景:新闻分类,关键词提取,文章摘要、文本内容分析。

非结构化数据处理场景:图片分类,图片文本内容提取。

其他各类预测场景:降雨预测,足球比赛结果预测。

机器学习的应用范围和领域非常广泛,不可能全部穷举,还有更广阔的空间,需要开发者去探索。

1.2机器学习业务架构体系

1.3机器学习类型与常用算法

监督学习:提供已经标记好的样本数据,目标是找出输入和输出之间的映射关系

无监督学习:数据未做标记,需要自主发现数据中的规律

半监督学习:利用大量未标记样本改进少量已标记样本的学习性能。

增强学习:数据变化万千,无法标记,但是可以对最终结果进行评价,寻找最佳累计回报。

2.机器学习实验工具PAI介绍

2.1机器学习实验工具概述

2.1.1单机版机器学习软件

主要用于处理小数据集,目前应用比较成熟的有:

R语言的RStudio,其优点是免费开源,且跨平台性好,在Windows、Mac、Linux系统上操作。另外,R具有很好的绘图功能。

Matlab:收费,内置很多算法包,可以进行单机的算法操作。

2.1.2分布式集群+开源架构

分布式集群和开源架构是很多中小型企业用户使用的机器学习解决方案。主要在开源集群上架设Spark分布式计算架构,利用Spark中的MLib机器学习包进行数据处理。

2.1.3企业级机器学习云服务

AWSML:

AWSML是向导式的服务,让小白用户也能轻松上手。缺点是扩展性比较低,强制设置一些字段的信息和属性的匹配,在算法选择上、字段自定义等方面不是很灵活。

阿里云PAI:通过对底层的分布式算法封装,提供拖拉拽的可视化操作环境。让数据挖掘的创建过程像搭积木一样简单。

2.2企业级机器学习工具

2.2.1支持大规模数据的计算

机器学习算法处理的数据针对比较大量的历史数据。特别是对非结构化数据:语音、图片、视频等,特征大,数据量也大。单机版无法胜任,需要分布式计算。

2.2.2包含丰富的机器学习算法

往往搭建一个业务逻辑需要很多算法串接起来,没有丰富的算法包,很难为企业级做服务。

2.2.3提供业务相关服务

机器学习最终生成的是一个模型,模型如何与业务相结合,需要有离线和在线相结合。每天晚上进行训练和预测,在白天把结果推送给销售。模型在线服务,针对实时性要求比较高的场景,比如广告投放,每进来一个用户需要马上预测他的可能的点击行为。

以上三点可以衡量机器学习工具是否满足企业级机器学习服务。

2.3机器学习PAI介绍

算法丰富

提供包含特征工程、数据预处理、统计分析、机器学习、深度学习框架、预测与评估这一整套的机器学习算法组件,共100余种。

深度学习(GPU)

平台已经支持Tensorflow、Caffe、MXNet这三款主流的机器学习框架,底层提供M40型号的GPU卡进行训练。

可视化操作界面

通过托拉拽的方式拖动算法组件拼接成实验,操作流程类似于搭积木,入门机器学习门槛较低。

一站式服务

PAI除了提供模型训练功能,还提供了在线预测以及离线调度功能,让机器学习训练结果和业务可以无缝衔接。

3.回归算法

在有监督式学习(SupervisedLearning

您可能关注的文档

文档评论(0)

BigDataGirl + 关注
实名认证
内容提供者

愿和你一起分享建设方案、解决方案、实施方案等在大数据的精品文档旅途中享受无尽的快乐。

1亿VIP精品文档

相关文档