- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE1
PAGE2
PAGE
数据分析文档
数据分析文档
目录TOC\o1-2
1.机器学习背景知识以及业务架构体系 2
1.1什么是机器学习 2
1.2机器学习业务架构体系 3
1.3机器学习类型与常用算法 4
2.机器学习实验工具PAI介绍 5
2.1机器学习实验工具概述 5
2.2企业级机器学习工具 6
2.3机器学习PAI介绍 6
3.回归算法 7
3.1.应用场景 7
3.2算法原理 9
3.3案例演示 12
3.5时间序列 17
4.分类算法 24
4.1算法简介 25
4.2分类算法应用场景实例 29
4.3应用案例实现 32
5.聚类算法 34
5.1k-means聚类算法简介 35
5.2聚类算法应用场景实例 36
5.3应用案例 39
1.机器学习背景知识以及业务架构体系
1.1什么是机器学习
机器学习也常称作统计学习或模式识别,是一门多领域交叉学科,涉及计算机科学、数学及概率统计、控制论、信息论、生理学、神经生物学及哲学等,其中核心是计算机科学和数学及统计学,可以认为它们组成了机器学习的基础。机器学习通过机器通过统计学算法对大量的历史数据进行学习,从而生成经验模型,利用经验模型指导业务,目前机器学习主要在以下一些方面发挥作用。
营销类场景:商品推荐,用户群体画像,广告精准投放。
金融类场景:贷款发放预测,金融风险控制,股票走势预测,黄金价格预测。
SNS关系挖掘:微博粉丝领袖分析,社交关系链分析。
文本类场景:新闻分类,关键词提取,文章摘要、文本内容分析。
非结构化数据处理场景:图片分类,图片文本内容提取。
其他各类预测场景:降雨预测,足球比赛结果预测。
机器学习的应用范围和领域非常广泛,不可能全部穷举,还有更广阔的空间,需要开发者去探索。
1.2机器学习业务架构体系
1.3机器学习类型与常用算法
监督学习:提供已经标记好的样本数据,目标是找出输入和输出之间的映射关系
无监督学习:数据未做标记,需要自主发现数据中的规律
半监督学习:利用大量未标记样本改进少量已标记样本的学习性能。
增强学习:数据变化万千,无法标记,但是可以对最终结果进行评价,寻找最佳累计回报。
2.机器学习实验工具PAI介绍
2.1机器学习实验工具概述
2.1.1单机版机器学习软件
主要用于处理小数据集,目前应用比较成熟的有:
R语言的RStudio,其优点是免费开源,且跨平台性好,在Windows、Mac、Linux系统上操作。另外,R具有很好的绘图功能。
Matlab:收费,内置很多算法包,可以进行单机的算法操作。
2.1.2分布式集群+开源架构
分布式集群和开源架构是很多中小型企业用户使用的机器学习解决方案。主要在开源集群上架设Spark分布式计算架构,利用Spark中的MLib机器学习包进行数据处理。
2.1.3企业级机器学习云服务
AWSML:
AWSML是向导式的服务,让小白用户也能轻松上手。缺点是扩展性比较低,强制设置一些字段的信息和属性的匹配,在算法选择上、字段自定义等方面不是很灵活。
阿里云PAI:通过对底层的分布式算法封装,提供拖拉拽的可视化操作环境。让数据挖掘的创建过程像搭积木一样简单。
2.2企业级机器学习工具
2.2.1支持大规模数据的计算
机器学习算法处理的数据针对比较大量的历史数据。特别是对非结构化数据:语音、图片、视频等,特征大,数据量也大。单机版无法胜任,需要分布式计算。
2.2.2包含丰富的机器学习算法
往往搭建一个业务逻辑需要很多算法串接起来,没有丰富的算法包,很难为企业级做服务。
2.2.3提供业务相关服务
机器学习最终生成的是一个模型,模型如何与业务相结合,需要有离线和在线相结合。每天晚上进行训练和预测,在白天把结果推送给销售。模型在线服务,针对实时性要求比较高的场景,比如广告投放,每进来一个用户需要马上预测他的可能的点击行为。
以上三点可以衡量机器学习工具是否满足企业级机器学习服务。
2.3机器学习PAI介绍
算法丰富
提供包含特征工程、数据预处理、统计分析、机器学习、深度学习框架、预测与评估这一整套的机器学习算法组件,共100余种。
深度学习(GPU)
平台已经支持Tensorflow、Caffe、MXNet这三款主流的机器学习框架,底层提供M40型号的GPU卡进行训练。
可视化操作界面
通过托拉拽的方式拖动算法组件拼接成实验,操作流程类似于搭积木,入门机器学习门槛较低。
一站式服务
PAI除了提供模型训练功能,还提供了在线预测以及离线调度功能,让机器学习训练结果和业务可以无缝衔接。
3.回归算法
在有监督式学习(SupervisedLearning
您可能关注的文档
- 某公司探索式数据分析及应用平台可行性研究报告.doc
- 【公文】利用大数据分析精准施策“六稳”工作.docx
- 某市”一网统管“城市运行生命体征建设方案.doc
- 某市城市运营管理中心建设项目-数据库设计说明书.doc
- 2025届河南省周口市扶沟高级中学高考化学全真模拟密押卷含解析.doc
- 陕西省延安中学2025届高考考前模拟化学试题含解析.doc
- 2025届林芝市重点中学高考化学四模试卷含解析.doc
- 云南省云天化中学2025届高考历史考前最后一卷预测卷含解析.doc
- 2025届江西省新余市渝水区第一中学高三下学期联考生物试题含解析.doc
- 江西省信丰中学2025届高考化学倒计时模拟卷含解析.doc
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
最近下载
- 绿色金融改革创新试点政策对企业经营绩效的影响研究.pdf VIP
- 赣州市南康区赞贤小学开展“扣好人生第一粒扣子——我爱我的祖国主题演讲比赛活动方案.doc
- 个人医保承诺书模板.docx VIP
- 绿色金融改革创新试点政策对企业绿色创新的影响-来源:创新与创业教育(第2022002期)-中南大学.pdf VIP
- 信息技术环境下的数学教学设计结题报告.doc VIP
- 国金证券:新型消费研究系列-便利店-小业态大生意-打造便利生活.pdf
- HIKARI富山奇立铺布机使用说明书.doc
- 部编版语文四年级上册第七单元大单元教学设计核心素养目标.pdf VIP
- 三级助理舞台灯光师题库考点(三).docx VIP
- (格式已排好)国家开放大学电大《计算机应用基础(专)》终结性考试大作业答案任务一.doc
文档评论(0)