- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类与预测 分类(classification)就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别(class),即将未知事例映射到某种离散类别之一。分类模型(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。 一般使用分类来表示对有限离散值的预测。使用预测(predication)来表示对连续数值的预测 分类与预测示例 一个商场销售主管可能会对影响商品销售的主要因素很感兴趣,若将顾客对商品的感觉分为三类,即:积极、一般和消极。那么利用分类挖掘对商场销售商品情况进行挖掘,就可以获得利用商品特征来预测顾客对其的感觉的分类知识,相关的商品特征通常包括:价格、品牌、产地、类型和种类等。而所获得的分类规则显然将帮助商场主管更有效开展商品的促销活动 分类: 应用1 直销 目标: 识别出可能购买某种新型手机产品的顾客,从而降低营销成本. 方法: 使用已有的类似产品的数据 已知哪些顾客购买了,而哪些没有,这个 {买, 不买} 的决策构成了类标签. 收集这些顾客的各种人口的、生活方式和与公司业务有关的信息 行业类型, 居住地方, 收入等. 使用这些信息作为输入属性来学习分类器模型 分类: 应用2 欺诈检测 目标: 预测出信用卡交易中的欺诈行为 方法: 使用信用卡交易和持卡人信息作为属性 标注以往的交易为正常或者欺诈交易,形成了类别标签 针对交易类别学习模型. 针对某些信用卡账户交易情况,使用该模型来检测是否欺诈交易 聚类分析 给定聚类分析的数据,以及度量数据对象之间相似度的计算公式,对象划分为若干组或簇(clusters),使得: 各簇(clusters)内部数据对象间的比较相似 各簇(clusters)对象间不相似 分类与聚类 分类预测方法学习获取分类预测模型所使用的数据是已知类别归属(class-labeled data ),属于有指导的学习方法; 聚类分析所分析处理的数据均是无(事先确定)类别归属,类别归属标志在聚类分析处理的数据集中是不存在的。因此聚类分析属于无指导的学习方法。 聚类: 应用1 市场细分 目标: 将一个市场划分为若干个客户群体,将每个群体分别作为营销目标,使用不同的营销组合手段进行营销 方法: 收集客户的不同属性,包括地理信息、生活方式相关信息等 找出相似客户的群体 通过观察并比较相同簇的客户的购买模式和不同簇的客户的购买模式,评价聚类的质量 聚类: 应用2 文档聚类 目标: 根据文档中包含的重要关键词,将文档集合划分为若干个组. 方法: 找出每个文档中频繁出现的词,基于词的频率,构建相似性度量,使用该相似性度量公式来聚类 回归分析: 定义 回归分析(regression analysis)是研究变量之间的相关关系的一种统计方法。一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数。 通俗地讲,回归分析是研究一个或几个影响因素与结果之间的数学关系,即经验公式。例如,人的身高和体重之间是否有数学关系,即是否有经验公式?这就是回归分析法。 回归分析的类型 从自变量的数量分为: 一元回归是指一个可以精确观测或严格控制的变量X,即自变量与因变量Y之间的回归关系。 多元回归的统计思想与处理方法与一元回归基本相同,只不过自变量不止一个。 从是否满足线性关系分为: 如果回归曲线是线性的(如y=a*x1+b*x2+c),称为一元线性回归。 更复杂的回归:有时一元回归曲线不是线性,这时需要用多项式回归或指数回归建立数据模型。 回归分析的例子 一元线性回归方程用一条直线来模拟两个变量间的关系 关联规则挖掘的定义 给定一个记录集合,每个记录由若干项(item)构成 产生依赖规则,使得根据一些项的出现可以预测另一些项的出现 关联规则挖掘: 应用1 市场促销 假设发现的一条规则是 {面包, … } -- {薯条} 薯条作为后件 = 可以用于确定如何才能提升其销量 面包作为前件 =可以知道如果商店不卖面包的话,哪些商品会受到影响 面包作为前件,而薯条作为后件= 可以用于确定将什么商品和面包一起销售可以提升薯条的销量 关联规则挖掘: 应用2 超市货架管理 目标: 找出被很多用户一起购买的商品 方法: 对POS数据进行处理,发现商品之间的依赖规则 经典规则 -- 如果一个顾客买了尿布和牛奶, 那么他很有可能也会买啤酒 智力玩具与减肥药 提纲 数据统计分析 什么是数据挖掘 数据挖掘流程 数据挖掘任务 数据挖掘应用 数据挖掘在各产业的应用 金融服务业 客户贡献度分析、信用评分、风险评估、客户划分、交叉营销等。 保险业 顾客贡献度分析、信用评分、风险评估、客户划分、交叉营销、客户流失分析和诈欺侦测等。 电信业
您可能关注的文档
- 第07课 白盒测试(1)—逻辑覆盖测试.ppt
- 大金空调设计手册及资料.ppt
- 发动机台架试验室简介.ppt
- 大跨空间及钢结构的进展与工程应用.doc
- 发酵食品工艺学复习资料.doc
- 第7章 电压比较器.ppt
- 第7章 化工原理蒸发.ppt
- 发那科机器人基础教育.ppt
- 发泡工艺培训资料.ppt
- 发声基础课件.ppt
- 2025年贵州工业职业技术学院高职单招高职单招英语2016-2024历年频考点试题含答案解析.docx
- 2025年西昌民族幼儿师范高等专科学校高职单招职业适应性测试近5年常考版参考题库含答案解析.docx
- 2025年西藏警官高等专科学校高职单招语文2018-2024历年参考题库频考点含答案解析.docx
- 2025年贵州工商职业学院高职单招职业技能测试近5年常考版参考题库含答案解析.docx
- 2025年贵州工商职业学院高职单招职业适应性测试近5年常考版参考题库含答案解析.docx
- 2025年贵州农业职业学院高职单招数学历年(2016-2024)频考点试题含答案解析.docx
- 2025年贵州工商职业学院高职单招高职单招英语2016-2024历年频考点试题含答案解析.docx
- 2025年贵州工商职业学院高职单招语文2018-2024历年参考题库频考点含答案解析.docx
- 2025年许昌职业技术学院高职单招数学历年(2016-2024)频考点试题含答案解析.docx
- 2025年许昌职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析.docx
最近下载
- 桥梁箱梁吊装专项施工方案汇报材料.ppt
- 2023中航集团(国航股份)信息管理部社会招聘笔试备考题库及答案解析.docx
- 数字化与绿色技术促进可持续发展专题政策研究报告(2024).pdf
- 102word格式支持编辑修改也支持打印使用小学生儿童成长档案幼儿园模板个人电子版a4记录纪念手册.docx VIP
- 赡养协议书范文6篇.docx VIP
- 高中地理培训心得5篇 .pdf
- “双减”政策背景下小学课后服务现状及优化策略研究--以S小学为例.pdf
- 047word格式支持编辑修改也支持打印使用小学生儿童成长档案幼儿园模板个人电子版a4记录纪念手册.docx VIP
- 部编版六年级语文下册《北京的春节》教学设计.doc VIP
- 2019年国航股份管理部IT人才招聘模拟试题及答案解析.docx VIP
文档评论(0)