商务数据挖掘介绍[教授制作]ln1.pptVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商务数据挖掘介绍[教授制作]ln1

商务数据挖掘介绍 李保坤老师 西南财经大学 统计学院 概览 一 数据挖掘的定义和发展 什么是数据挖掘 促进数据挖掘发展的因素 核心领域 二 数据挖掘过程 数据分析过程 SEMMA思想 三 数据挖掘应用举例和课程简介 应用举例 课程简介 什么是数据挖掘 是近来创造的名词,是把统计学、计算机科学(机器学习和数据库方法)的一些思想综合运用到科学、工程和商业方面大型数据库上以发现事物内在规律的方法。 目前还没有定型。对此有多种定义,对其范畴还有争议,术语也不标准。 广义定义和狭义定义 广义定义把传统的统计方法包括进来;狭义定义只强调自动的、粗略的方法,例如查询(使用SQL)。 有人称之为数据挖掘,有人称之为信息挖掘,还有人称之为数据库上的知识发现(KDD)。 两个从不同角度的定义 数据挖掘是建立在规模、速度、和简单化上的统计学; 数据挖掘是使用模式识别技术、统计和数学技术,通过对数据库存储的大量数据进行处理以发现有意义的新的相互关系、模式、和动向的过程。 促进数据挖掘发展的因素 市场:从关注产品/服务到关注客户 IT:从记录交易的结余到发现交易的模式- 数据仓库(或加工厂),可对数据进行在线分析和处理 存储成本的剧烈下降:巨型数据库 交易数据的自动获取:条形码等 互联网:个性化的应答等。 核心领域 统计学 (调整过的,为了适应21世纪的数据量和速度要求). 例如: – 描述性统计: 可视化 – 模型: 回归, 聚类分析 机器学习:例如神经网络 数据库信息抽取:例如关联法则 并行开发:例如树的方法,k-最近邻点, 在线分析和处理 数据分析过程 1. 领会应用项目及其要达到的目的 2. 创建数据集合以供研究(数据集合的数据通常来自数据仓库) 3. 数据清理和预处理 4. 数据精减和投影 5. 选择数据挖掘任务 6. 选择数据挖掘算法 7. 用算法去完成任务 8. 解释结果,如果有必要,重复步骤1-7 9. 应用: 把结果装配到工作系统上去。 数 据 挖 掘 SEMMA 思想(SAS) 采样(Sample):从数据集合里采样,并把数据集合划分为训练、验证、和测试各数据集合。 探索(Explore):用统计方法或者图形方法探索数据集合。 调整(Modify): 转换变量,删除有缺失值的记录。 建模(Model): 拟合预测模型,例如采用回归、树、协同滤波。 评估(Assess): 用验证数据集合比较模型。 应用举例 客户关系管理 金融 电子商务和互联网 客户关系管理 直销 (Target Marketing) 客户流失预测/跳槽分析 (Attrition Prediction/Churn Analysis) 欺诈探测 (Fraud Detection) 信用评分 (Credit Scoring) 直销 商业问题:如何挑出很可能购买产品的客户以便把广告邮寄到家里? 解决方案:使用数据挖掘对客户的种族、地理信息以及过去的采购行为数据进行挖掘来找出最可能的买家。 结果:邮件广告的应答率提高了,节约了邮寄成本。 例子:舰队金融集团 (Fleet Financial Group) 重新构建其客户服务设施,其中包括$38million投资建造的数据仓储和营销自动化设备 从具有15million客户的数据库里抽出20000个客户的背景资料,使用logistic回归方法预测每个客户对房屋淨值产品作回覆的概率 使用分类和回归树方法(CART)预测可贡献利润的客户和那些即使回覆也可能不贡献利润的客户 跳槽分析(远程通信) ? 商业问题:阻止现有客户流失,防止喜欢跳槽客户的加入 解决方案:使用神经网络、时间序列分析方法辨识出那些很可能流失和很可能跳槽的客户使用电话的典型模式 ? 结果:巩固了现有客户,对顾客的优惠鼓励措施更为有效 例子:法国电信 (France Telecom) ? 建造客户数据仓库-跳槽/客户背景信息系统(CHURN/Customer Profiling System) -避免不良客户的加入:根据用户的背景资料以及已知的跳槽和不跳槽客户的案例来找出跳槽者的显著特点 -早期探测:通过比较电讯使用模式和已有的跳槽客户的案例作比较可早早知道某客户将来是否跳槽。 欺诈探测 商业问题:欺诈活动会增加成本或者减少收入 解决方案:使用logistic回归,神经网络方法找出欺诈案例的特点以防将来再发生同类欺诈或者加大检察力度 结果:通过减少不良客户增加利润 例子:麻省汽车保险局 专家们仔细审查关于保险理赔员的以往报告,以识别出欺诈案例 关于赔偿请求、事故类型、创伤或者治疗的类型的特征(60多项)被录入到数据库中

文档评论(0)

jdy261842 + 关注
实名认证
文档贡献者

分享好文档!

1亿VIP精品文档

相关文档