- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据产品必备技术知识:机器学习及常见算法,看这一篇就够了
大家都知道,产品经理需要懂技术,很多面试官都偏好有技术背景的同学,毕竟产品经理经常要和开发同学相爱相杀。当然也不是一定要求能够精通,但是至少不要让这块成为沟通的障碍,懂点技术,实际工作中也能少被开发同学“忽悠”,讲道理时不会畏手畏脚,更有底气。
对于数据产品,不仅要懂技术,还要懂更多的技术。
比如说产品都要懂:什么是程序?程序如何组装成功能?服务端客户端数据交互是咋样的?数据库是啥?里面的表、关系结构、字段、字段类型是啥?常见的技术名词如接口、同步异步、重构等等又是指啥?
除了这些,数据产品还要懂数据相关的技术,比如说数据仓库,机器学习数据挖掘,大数据框架或者常用的数据开发工具hadoop、hive、spark等等这些。所以,从某些角度而言,数据产品比其他产品门槛要更高点。
数据仓库已经写了一篇(虽然还没写完), 数据产品必备技术知识:数据仓库入门,看这一篇就就够了,后面会写个进阶版。
这一篇主要梳理机器学习及常见算法。
一、什么是机器学习
机器学习有下面几种定义:
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。 机器学习是对能通过经验自动改进的计算机算法的研究。 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
上述来自维基百科,有点晦涩。
机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
其实这个过程,一个成语就可概括:举一反三。
此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案。
机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考的题目)?
事实上,机器学习的一个主要目的,就是把人类思考归纳经验的过程,转化为计算机通过对数据的处理计算得出模型的过程。
二、机器学习术语
训练:数据通过机器学习算法进行处理,这个过程在机器学习中叫做“训练”。
模型:处理的结果可以被我们用来对新的数据进行预测,这个结果一般称之为“模型”。
预测:对新数据的预测过程在机器学习中叫做“预测”。
特征:即数据的属性,通过数据的这些特征可以代表数据的特点。
标签:对数据的预测结果。
特征和标签,结合下面的内容更好了解。
三、机器学习常见算法
先说算法,其实算法是个很大的概念,除了机器学习算法,还有很多非机器学习算法,如编程里解决排序的快排、堆排、冒泡,也是算法。只是机器学习太火了,一提算法,多想到的是机器学习算法。
1. 决策树
决策树,一种预测模型,代表的是对象属性与对象值之间的一种映射关系。
一般来讲通过学习样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。
这里举一个简单的例子:比如说,样本数据为用户的行为信息,同时已知每个用户的分类信息,假设分类为流失用户、非流失用户。
然后我根据多个样本数据训练出的多种多样的模型,下面画了一个简单的决策模型,其中事件可以是:是否有过订单,被赞次数超过5次等等这种(事件不是啥专有名词哈,我这里是为了偷懒不去举例,而用它代替)。
此外,为了验证哪个模型更准,可以再用一组新的样本数据作为测试数据,套入模型,看看模型跑出的分类和实际分类误差多少,从此来衡量模型的准确性。
这里引入一下训练样本和测试样本,很多训练过程都是这样处理的,样本数据划分为训练样本和测试样本,训练样本用来生成模型,测试样本用来验证准确性。
同时这里面的用户的行为事件就是“特征”,分类(是否为流失用户)就是“标签”。
回顾一下:
特征:即数据的属性,通过数据的这些特征可以代表数据的特点。
标签:对数据的预测结果。
至于模型是怎么训练生成的,具体算法啥样,就不介绍了(其实是我也写不清楚)。
决策树在实际工作中基本应用于给人群分类,最好的应用场景是要把人群分类,并找到不同类别人群的不同特征,比如上面的例子,就可以做个流失模型,通过用户的行为来提前找到哪些人有流失风险,并通过专门优惠等手段挽留。也可以发现哪些关键节点导致了流失,在这些节点上加一些运营策略来减少流失。
为了防止上图误导大家,找了其他的决策树模型示例。
2. 回归算法
统计学来讲,利用统计方法来建立一个表示变量之间相互关系的方程,这样的统计方法被称为回归分析。
回归算法就可以理解是研究不同变量相关关系的一个机器学习算法。多说一句,其实很多机器学习算法都是来自统计学。
回归算法有两个重要的子类:线性回归和逻辑回归。
线性回归
这里从简单线性回归入手介绍,也就是我举得例子只是研究两个样本变量之间的线性关系。
假设我们来研究考试成绩和复习时间的关系,数据如下:
我想找出考试成绩和复习时间的规
您可能关注的文档
- 同洲电子案例.docx
- 含电子班牌-考勤-消费-巡更-充值-查询-门禁-学校、企业一卡通应用方案.docx
- 启航汽车服务有限公司员工管理制度.doc
- 商业生态系统视角下电子商务企业运营战略分析.doc
- 商业银行电子合同法律问题及风险管控.docx
- 喷塑工艺流程.doc
- 国内主要主机厂汽车物流详细调研.doc
- 啤酒生产工艺流程及其检验流程.doc
- 国际电子商务概述.doc
- 图像监控系统技术措施.doc
- 渤海汽车2025年第三季度报告.pdf
- 【生物】湖南省部分学校2025-2026学年高三上学期9月联考(学生版).pdf
- 第五章 一元一次方程(单元解读课件)数学人教版2024七年级上册.pdf
- 【生物】湖南省部分学校2025-2026学年高三上学期9月联考(解析版).pdf
- 【生物】湖北省部分高中协作体2025-2026学年高二上学期9月联考(学生版) .pdf
- 华斯股份:2025年三季度报告.pdf
- 安徽省蚌埠市蚌埠第二中学2025-2026学年高二(上)开学检测物理试卷.pdf
- 安徽省六安市裕安区2024-2025学年高二生物上学期12月月考(解析版).pdf
- 安徽省皖南八校2024-2025年高二生物上学期期中考试(解析版).pdf
- 第五章 一元一次方程(复习课件)数学人教版2024七年级上册.pdf
原创力文档


文档评论(0)