网站大量收购独家精品文档,联系QQ:2885784924

大数据管理与应用 课件 第七章 数据分类分析.pptx

大数据管理与应用 课件 第七章 数据分类分析.pptx

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第七章数据分类分析;分类分析是一种对离散标签进行预测的监督学习方法,其目的是从给定的分类训练数据中学习分类模型,数据分类分析在许多场景下都有重要应用,如客户流失预测、客户信用风险等级预测和国家电网客户用电异常行为分析等。在本章中您将了解数据分类分析的基本概念,掌握数据分类分析的六种基本类型及其典型方法,并了解数据分类分析如何应用于实际场景。

数据分类分析概述

基于函数的分类分析

基于概率的分类分析

基于最近邻的分类分析

基于决策树的分类分析

基于规则的分类分析

集成分类分析;01;?;分类分析的基本类型主要可以分为以下六类:

基于函数的分类分析

基于概率的分类分析

基于最近邻的分类分析

基于决策树的分类分析

基于规则的分类分析

集成分类分析;客户流失预测

企业利用大量的销售数据构建客户流失分类模型,帮助业务人员识别哪些客户有流失的风险,并找出客户流失的原因,从而公司能够及时采取相应的措施挽留客户。

客户信用风险等级预测

银行基于客户的基本信息、银行流水记录和借贷信息等相关数据构建信用风险等级分类模型,对客户的信用风险等级进行划分,从而确保信用风险较低的客户能够得到贷款。

国家电网客户用电异常行为分析

电网公司通过收集海量的用电数据构建用电行为特征,如周统计指标、月统计指标和季度用电量等,并基于这些特征来构建客户用电异常行为分类模型,从而保证正常的供电秩序。

其他领域

电子商城的优惠券使用预测、商品图片分类、中文语料的类别分析和情感分析、基于文本内容的垃圾短信识别、自动驾驶场景中的交通标志检测、监控场景下的行人精细化识别等。

;?;?;?;?;?;?;?;朴素贝叶斯模型概述

朴素贝叶斯模型是一种简单而高效的分类模型,可以基于贝叶斯定理和条件独立假设计算出待分类项在其当前条件下各个可能类别出现的概率,并将取得最大值的那个类别作为最终输出结果。

朴素贝叶斯模型主要的思想就是在已给定特征属性值的前提下找到出现概率最大的类别标签。“朴素”是指其在估计类条件概率时假设各个特征属性之间条件独立,这也是???易于操作的原因。;?;?;?;基于K最近邻(K-NearestNeighbor,KNN)的分类分析将一组已分类点中最接近的分类分配给一个未分类的样本点,与其他分类方法不同,最近邻分类法是一种惰性学习方法,不需要在给定样本的基础上进行训练,而是在给出需要预测的新样本后,通过新样本最邻近的样本标签来确定其预测分类。最近邻分类分析是一种非参数方法,比较简单、直观、易于实现。

为了解决最近邻算法对噪声数据过于敏感的缺陷,可以采用扩大参与决策的样本量的方法,使用K个邻近点进行决策,形成了KNN分类法。KNN分类法可以生成任意形状的决策边界,较其他分类器更为灵活,特别适合于多分类问题,目前该方法已广泛应用于新闻文本分类和遥感图像分类等。;KNN模型概述

KNN分类法是一种基于样本的惰性学习方法。如果一个样本在特征空间中的K个最邻近的样本中的大多数属于某一个类别,则该样本也属于这个类别。

KNN算法的基本思想:假设给定一个训练数据集,其中的样本类别已定,对于新的样本,根据其K个最近邻的训练样本的类别,通过多数表决等方式来进行预测,输出为预测新样本的类别标签。;?;?;KNN的分类决策规则一般使用多数投票法,即根据离样本最近的K个训练样本中的多数类,决定预测样本类别。此外,还可以根据距离远近进行加权投票,距离越近的样本权重越大。

算法

KNN模型的算法伪代码:

;决策树模型是一种呈树形结构的机器学习模型,它由一个根节点、若干个内部节点和叶节点构成,其中,根节点和内部节点表示特征,叶节点则表示类标签。从根节点到一个叶节点对应了一条判定规则,决策树模型的学习目标就是通过递归的手段对特征空间进行划分,从而构造一个从根节点联通到不同叶节点的决策树。因此,在分类问题中,决策树模型可以认为是if-then规则的集合。

最早的决策树模型由Hunt等人于1966年提出,该模型也是许多决策树模型的基础,包括ID3、C4.5、C5.0和CART(ClassificationAndRegressionTrees)等。决策树模型的学习分为特征选择、决策树生成和决策树剪枝三个步骤。特征选择是决策树模型进行特征空间划分的依据,也是构建决策树模型的核心。

Quinlan提出的ID3和C4.5模型分别使用信息增益(InformationGain)和信息增益率(InformationGainRatio)进行特征选择,Breiman等人提出的CART模型则使用了基尼(Gini)系数作为特征选择的依据。;ID3决策树模型概述

ID3决策树模型是一种通过信息增益对特征空间进行划分的决策树模型。

ID3模型的主要思想就是使得最终的叶结点中的样本尽可能为同类样本,即样本尽可能“纯

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档