《数据挖掘主要解决的四类问题》.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据挖掘主要解决的四类问题》.pdf

@数据分析精选:分享数据分析、数据挖掘期待名人和人名猛击“关注”实在是您学习研究、职场商战的 必备猛药。 数据挖掘主要解决的四类问题 作者:@小蚊子乐园 原文:/s/blog_49f78a4b0100ny3w.html 摘自《深入浅出谈数据挖掘》--段勇 数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。丰富 的业务知识是设计有效的相关变量的必要条件,而分析人员的思维模式 从另外一个方面也保障了设计变量的结构化和完整性。所以我们在掌握 丰富的业务知识同时,如果能够按照正确的思维模式去思考问题,将会 发现解决问题并不是很困难的。 @数据分析精选:分享数据分析、数据挖掘期待名人和人名猛击“关注”实在是您学习研究、职场商战的 必备猛药。 一般来说,数据挖掘主要侧重解决四类问题:分类、聚类、关联、预 测。数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度 的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我 们来看看它所解决的四类问题是如何界定的: 1、分类问题 分类问题属于预测性的问题,但是它跟普通预测问题的区别在于其预 测的结果是类别(如 A、B、C 三类)而不是一个具体的数值(如 55、65、 75……)。 举个例子,你和朋友在路上走着,迎面走来一个人,你对朋友说:我 猜这个人是个上海人,那么这个问题就属于分类问题;如果你对朋友说: @数据分析精选:分享数据分析、数据挖掘期待名人和人名猛击“关注”实在是您学习研究、职场商战的 必备猛药。 我猜这个人的年龄在 30 岁左右,那么这个问题就属于后面要说到的预 测问题。 商业案例中,分类问题可谓是最多的: • 给你一个客户的相关信息,预测一下他未来一段时间是否会离网? • 信用度是好/一般/差?是否会使用你的某个产品? • 将来会成为你的高/中/低价值的客户? • 是否会响应你的某个促销活动? • …… 有一种很特殊的分类问题,那就是“二分”问题,显而易见,“二分” 问题意味着预测的分类结果只有两个类:如是/否;好/坏;高/低……; 这类问题也称为 0/1 问题。之所以说它很特殊,主要是因为解决这类问 题时,我们只需关注预测属于其中一类的概率即可,因为两个类的概率 可以互相推导。如预测 X=1 的概率为 P (X=1),那么X=0 的概率 P (X=0) =1-P (X=1),这一点是非常重要的。 可能很多人已经在关心数据挖掘方法是怎么预测 P (X=1)这个问题的 了,其实并不难。解决这类问题的一个大前提就是通过历史数据的收集, 已经明确知道了某些用户的分类结果。 例如已经收集到了 10000个用户的分类结果,其中 7000 个是属于“1” 这类;3000 个属于“0”这类。伴随着收集到分类结果的同时,还收集 了这 10000个用户的若干特征(指标、变量)。这样的数据集一般在数 @数据分析精选:分享数据分析、数据挖掘期待名人和人名猛击“关注”实在是您学习研究、职场商战的 必备猛药。 据挖掘中被称为训练集,顾名思义,分类预测的规则就是通过这个数据 集训练出来的。 训练的思路大概是这样的:对所有已经收集到的特征/变量分别进行 分析,寻找与目标 0/1 变量相关的特征/变量,然后归纳出 P (X=1)与 筛选出来的相关特征/变量之间的关系(不同方法归纳出来的关系的表 达方式是各不相同的,如回归的方法是通过函数关系式,决策树方法是 通过规则集)。 如需了解细节,请查阅:决策树、Logistic 回归、判别分析、神经网 络、Chi-square、Gini、……等相关知识。 2、聚类问题 聚类问题不属于预测性的问题,它主要解决的是把一群对象划分成若 干个组的问题。划分的依据是聚类问题的核心。所谓“物以类聚,人以 群分”,故得名聚类。 @数据分析精选:分享数据分析、数据挖掘期待名人和人名猛击“关注”实在是您学习研究、职场商战的 必备猛药。 聚类问题容易与分类问题混淆,主要是语言表达的原因,因为我们常 说这样的话:“根据客户的消费行为,我们把客户分成三个类,第一个 类的主要特征是……”,实际上这是一个聚类问题,但是在表达上容易 让我们误解为这是个分类问题。 分类问题与聚类问题是有本质区别的:分类问题是预测一个未知类别 的用户属于哪个类别(相当于做单选题),而聚类问题是根据选定的指 标,对一群用户进行划分(相当于做开放式的论述题),它不属于预测 问题。 聚类问题在商业案例中也是一个非常常见的,例如需要选择若干个指 标(如价值、成本、使用的产品等)对已有的用户群

文档评论(0)

ghfa + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档