LectureShujuWajueSlides.pdf

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LectureShujuWajueSlides.pdf

数据挖掘:概述 什么是数据挖掘? 数据挖掘是近年来[1]从统计学和计算机科学(机 器学习和数据库技术)交叉而来的新词汇,应用 于科学、工程和商业领域中的大型数据库 数据挖掘处正在变动和发展过程中,有很多数据 挖掘的定义,也有很多关于数据挖掘是什么和不 是什么的讨论。本课用的术语并不是标准的,例 如:偏差、分类、预测、特征=自变量、目标= 因变量、事例=范本=行 [1]第一次关于数据挖掘和知识发现的国际会议于1995年召开 广义和狭义的数据挖掘定义 广义的数据挖掘定义包括传统的统计学方 法;狭义的定义则强调自动和启发式方法 数据挖掘、数据捕捞、无特定目标的搜索 数据库中知识发现(KDD) 我喜欢的(定义) “大规模和快速的统计学” ——Darryl Pregibon 本人对上述定义的扩展:“大规模、快速 的、简明的(统计学)” Gartner小组(的定义) “数据挖掘是用模式识别、统计学、数学等 方法过滤存储在数据库中大量的数据来发 现新的、有意义的关系、模式和趋势的过 程。” (数据挖掘产生的)驱动力 市场因素:从关注产品/服务到关注客户 信息技术:从关注最新的收支差额到关注交易模 式-数据仓库(DW)-联机分析处理(OLAP ) 存储费用大幅度下降:(因此产生了)巨大的数 据库。例如,沃尔玛2千万交易/天,10万亿字节 的数据库;BlockBuster (全球最大的音像制品连 锁租赁公司): (有)3千6百万家庭(的数据); 交易数据可自动获取。例如:条形码、POS机、 鼠标点击、位置数据(GPS、移动电话) 因特网:个性化的交互、纵向的数据 核心学科 统计学(随着21世纪数据规模和处理速度 的要求而改变)。例如: -描述上:可视化 -模型:回归、聚类分析 机器学习。例如:神经网络 数据库检索。例如:关联规则 平行的发展:决策树、k-最近邻、OLAP- EDA (联机分析-电子数据交换) 数据挖掘过程 1、理解应用和目标; 2、得到研究用的数据集(通常来自数据仓库); 3、数据清洗和预处理; 4 、数据降维和投影; 5、选择数据挖掘任务; 数 据 6、选择数据挖掘算法; 挖 掘 7、用算法完成任务; 8、解释结果,如果需要重复步骤1-7; 9、配置:集成进运作的系统。 SEMMA方法论(SAS ) S:从数据集中抽取样本,分成训练集、验 证集和测试集 E:通过统计及图示等方法探究数据集(隐 含的规律) M:修正:变量转换、填补数据缺省值 M:模型:建立合适的模型,如回归、分 类树、神经网络 A :评估:用验证、测试数据集来检验模型 应用示例 客户关系管理 财务分析 电子商务和互联网 客户关系管理 目标市场 流失预测/流失分析 欺诈检测 信用评分 目标市场 商业问题:使用潜在客户列表进行直邮活 动 解决方案:人口、地理数据结合过去购买 行为数据,用数据挖掘识别确定最有希望 的回应者 收益:更高的回应率、节约活动费用 例子:Fleet金融集团 重新设计客户服务结构,包括在数据仓库 和营销自动化

文档评论(0)

lizhencai0920 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档