数据产品必备技术知识：机器学习及常见算法-看这一篇就够了.docxVIP

下载本文档

1
0
约4.88千字
约 15页
2019-07-28 发布于浙江
举报
版权申诉

数据产品必备技术知识：机器学习及常见算法-看这一篇就够了.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据产品必备技术知识：机器学习及常见算法，看这一篇就够了大家都知道，产品经理需要懂技术，很多面试官都偏好有技术背景的同学，毕竟产品经理经常要和开发同学相爱相杀。当然也不是一定要求能够精通，但是至少不要让这块成为沟通的障碍，懂点技术，实际工作中也能少被开发同学“忽悠”，讲道理时不会畏手畏脚，更有底气。对于数据产品，不仅要懂技术，还要懂更多的技术。比如说产品都要懂：什么是程序？程序如何组装成功能？服务端客户端数据交互是咋样的？数据库是啥？里面的表、关系结构、字段、字段类型是啥？常见的技术名词如接口、同步异步、重构等等又是指啥？除了这些，数据产品还要懂数据相关的技术，比如说数据仓库，机器学习数据挖掘，大数据框架或者常用的数据开发工具hadoop、hive、spark等等这些。所以，从某些角度而言，数据产品比其他产品门槛要更高点。数据仓库已经写了一篇（虽然还没写完），数据产品必备技术知识：数据仓库入门，看这一篇就就够了，后面会写个进阶版。这一篇主要梳理机器学习及常见算法。一、什么是机器学习机器学习有下面几种定义：机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。机器学习是对能通过经验自动改进的计算机算法的研究。机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。上述来自维基百科，有点晦涩。机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。其实这个过程，一个成语就可概括：举一反三。此处以高考为例，高考的题目在上考场前我们未必做过，但在高中三年我们做过很多很多题目，懂解题方法，因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似：我们能不能利用一些训练数据（已经做过的题），使机器能够利用它们（解题方法）分析未知数据（高考的题目）？事实上，机器学习的一个主要目的，就是把人类思考归纳经验的过程，转化为计算机通过对数据的处理计算得出模型的过程。二、机器学习术语训练：数据通过机器学习算法进行处理，这个过程在机器学习中叫做“训练”。模型：处理的结果可以被我们用来对新的数据进行预测，这个结果一般称之为“模型”。预测：对新数据的预测过程在机器学习中叫做“预测”。特征：即数据的属性，通过数据的这些特征可以代表数据的特点。标签：对数据的预测结果。特征和标签，结合下面的内容更好了解。三、机器学习常见算法先说算法，其实算法是个很大的概念，除了机器学习算法，还有很多非机器学习算法，如编程里解决排序的快排、堆排、冒泡，也是算法。只是机器学习太火了，一提算法，多想到的是机器学习算法。 1. 决策树决策树，一种预测模型，代表的是对象属性与对象值之间的一种映射关系。一般来讲通过学习样本得到一个决策树，这个决策树能够对新的数据给出正确的分类。这里举一个简单的例子：比如说，样本数据为用户的行为信息，同时已知每个用户的分类信息，假设分类为流失用户、非流失用户。然后我根据多个样本数据训练出的多种多样的模型，下面画了一个简单的决策模型，其中事件可以是：是否有过订单，被赞次数超过5次等等这种（事件不是啥专有名词哈，我这里是为了偷懒不去举例，而用它代替）。此外，为了验证哪个模型更准，可以再用一组新的样本数据作为测试数据，套入模型，看看模型跑出的分类和实际分类误差多少，从此来衡量模型的准确性。这里引入一下训练样本和测试样本，很多训练过程都是这样处理的，样本数据划分为训练样本和测试样本，训练样本用来生成模型，测试样本用来验证准确性。同时这里面的用户的行为事件就是“特征”，分类（是否为流失用户）就是“标签”。回顾一下：特征：即数据的属性，通过数据的这些特征可以代表数据的特点。标签：对数据的预测结果。至于模型是怎么训练生成的，具体算法啥样，就不介绍了（其实是我也写不清楚）。决策树在实际工作中基本应用于给人群分类，最好的应用场景是要把人群分类，并找到不同类别人群的不同特征，比如上面的例子，就可以做个流失模型，通过用户的行为来提前找到哪些人有流失风险，并通过专门优惠等手段挽留。也可以发现哪些关键节点导致了流失，在这些节点上加一些运营策略来减少流失。为了防止上图误导大家，找了其他的决策树模型示例。 2. 回归算法统计学来讲，利用统计方法来建立一个表示变量之间相互关系的方程，这样的统计方法被称为回归分析。回归算法就可以理解是研究不同变量相关关系的一个机器学习算法。多说一句，其实很多机器学习算法都是来自统计学。回归算法有两个重要的子类：线性回归和逻辑回归。线性回归这里从简单线性回归入手介绍，也就是我举得例子只是研究两个样本变量之间的线性关系。假设我们来研究考试成绩和复习时间的关系，数据如下：我想找出考试成绩和复习时间的规