商业数据分析与可视化教学课件第六章DBSCAN.pptxVIP

  • 11
  • 0
  • 约3.73千字
  • 约 24页
  • 2022-12-30 发布于广东
  • 举报

商业数据分析与可视化教学课件第六章DBSCAN.pptx

3DBCAN2密度聚类1学习目标理解DBSCAN聚类的原理掌握DBSCAN聚类的Python实现方法Part 01课程导入导入与预备知识课前思考对如下数据X进行聚类,将结果绘制散点图,其中不同的类别给与不同的颜色?import numpy as npimport matplotlib.pyplot as pltx=np.linspace(-2,2,200)y=x*x + np.random.normal(0,0.1,x.shape)x1=np.linspace(0,4,200)y1=-x*x + np.random.normal(0,0.1,x.shape)+5x_temp = np.concatenate((x,x1))y_temp = np.concatenate((y,y1))plt.scatter(x_temp,y_temp,c=black)X=np.array([x_temp,y_temp]).T课前思考Part 02商场客户分析案例分析 小额贷款公司通过与销售门店进行合作的方式来实现对个人的放贷。比如对于某合作的手机门店,小贷公司会在手机门店委派一个销售人员,如果某个客户想分期贷款购买一个手机,并且选择了该公司作为放款方,那么小贷公司的销售人员就会帮助客户办理贷款合同。 出于对风险的考虑,小贷公司会要求整个办单过程都必须在该手机门店内操作完成。 对于用户办单地点不在合同门店,而是在其他地方进行的操作,我们称为“暗点”操作。 暗点操作是属于违规操作,多为中介、门店、销售人员共同参与套现,是一种欺诈行为,客 户的还款意愿难以确定,对小贷公司可能造成直接损失,所以需要对暗点门店进行排查管控。背 景以下是从小贷公司数据库抽取2019-3-1到2019-6-30间信息完整的放款订单数据,共计19146 条记录。抽取的数据字段和部分数据详情展示如下,其中距离为订单到门店的距离数据(基于GPS数据计算获得),逾期是指用户到期还款是否逾期。了解数据Customer_IDAgeAnnual_IncomeSpending_Score1191539221158132016642316775311740订单号距离放款金额进件时间 是否逾期 门店 ID 门店省份 门店业务10240731316.71076712019/5/1否1024安徽数码10240730316.68746282019/5/19是1024安徽数码10240729316.63271732019/5/23否1024安徽数码10240728316.60473242019/5/23否1024安徽数码问题1、识别出“暗点”订单。2、对公司的暗点情况从总体情况和暗点订单进件时间趋势2个方面进行分析。3、针对暗点操作提出建议措施。 我们如何识别“暗点”订单呢?:GPS的作用为了识别暗点订单操作,我们可以通过获取门店和客户的GPS数据来计算用户办单时与门店之间的距离,从而判断用户办单的地点是否在合作门店。Customer_IDAgeAnnual_IncomeSpending_Score1191539221158132016642316775311740正常门店如上图所示,如果用户都在某一合作门店内办单,那么以该门店GPS位置为中心会形成一个密集的区域,用户的GPS位置会在其中随机分布。除某些异常情况外,绝大多数的用户是不会出现在距离门店很远的地方。 我们如何识别“暗点”订单呢?:GPS的作用Customer_IDAgeAnnual_IncomeSpending_Score1191539221158132016642316775311740暗点门店如上图所示,该门店存在2个暗点,即除了门店所在区域外,还出现了2个用户GPS位置比较密集的区域,这些区域距离门店位置有一定的距离,超过了GPS定位可能产生误差的距离。通过对比正常情况和有暗点情况下的用户分布,我们可以发现:如果有一个门店,在该门店办单用户GPS数据呈现出有几个比较集中,但是彼此又相隔较远的密集区域,那么这个门店就存在暗点操作的风险。直方图识别查看原始数据,可以看到ID为1024的门店,其订单主要分布在距离门店316公里、142公里和门店附近3个区域,故为暗点订单门店。利用直方图展示门店ID为1024的订单距离分布。Part 03DBSCAN聚类算法原理 DBSCAN算法原理DBSCAN聚类算法是最常用的密度聚类代表算法之一。核心思想:DBSCAN算法通过样本分布的紧密程度来确定聚类结构,从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇来获得最终的聚类结果。为了更深入理解其思想,我们通过下面的算法流程演示来进行说明。以下图中点的聚类为例来说明DBSCAN算法: DBSCAN算法首先需要设置两个参数,这两个参数

文档评论(0)

1亿VIP精品文档

相关文档