- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LectureShujuWajueSlides.pdf
数据挖掘:概述
什么是数据挖掘?
数据挖掘是近年来[1]从统计学和计算机科学(机
器学习和数据库技术)交叉而来的新词汇,应用
于科学、工程和商业领域中的大型数据库
数据挖掘处正在变动和发展过程中,有很多数据
挖掘的定义,也有很多关于数据挖掘是什么和不
是什么的讨论。本课用的术语并不是标准的,例
如:偏差、分类、预测、特征=自变量、目标=
因变量、事例=范本=行
[1]第一次关于数据挖掘和知识发现的国际会议于1995年召开
广义和狭义的数据挖掘定义
广义的数据挖掘定义包括传统的统计学方
法;狭义的定义则强调自动和启发式方法
数据挖掘、数据捕捞、无特定目标的搜索
数据库中知识发现(KDD)
我喜欢的(定义)
“大规模和快速的统计学”
——Darryl Pregibon
本人对上述定义的扩展:“大规模、快速
的、简明的(统计学)”
Gartner小组(的定义)
“数据挖掘是用模式识别、统计学、数学等
方法过滤存储在数据库中大量的数据来发
现新的、有意义的关系、模式和趋势的过
程。”
(数据挖掘产生的)驱动力
市场因素:从关注产品/服务到关注客户
信息技术:从关注最新的收支差额到关注交易模
式-数据仓库(DW)-联机分析处理(OLAP )
存储费用大幅度下降:(因此产生了)巨大的数
据库。例如,沃尔玛2千万交易/天,10万亿字节
的数据库;BlockBuster (全球最大的音像制品连
锁租赁公司): (有)3千6百万家庭(的数据);
交易数据可自动获取。例如:条形码、POS机、
鼠标点击、位置数据(GPS、移动电话)
因特网:个性化的交互、纵向的数据
核心学科
统计学(随着21世纪数据规模和处理速度
的要求而改变)。例如:
-描述上:可视化
-模型:回归、聚类分析
机器学习。例如:神经网络
数据库检索。例如:关联规则
平行的发展:决策树、k-最近邻、OLAP-
EDA (联机分析-电子数据交换)
数据挖掘过程
1、理解应用和目标;
2、得到研究用的数据集(通常来自数据仓库);
3、数据清洗和预处理;
4 、数据降维和投影;
5、选择数据挖掘任务; 数
据
6、选择数据挖掘算法; 挖
掘
7、用算法完成任务;
8、解释结果,如果需要重复步骤1-7;
9、配置:集成进运作的系统。
SEMMA方法论(SAS )
S:从数据集中抽取样本,分成训练集、验
证集和测试集
E:通过统计及图示等方法探究数据集(隐
含的规律)
M:修正:变量转换、填补数据缺省值
M:模型:建立合适的模型,如回归、分
类树、神经网络
A :评估:用验证、测试数据集来检验模型
应用示例
客户关系管理
财务分析
电子商务和互联网
客户关系管理
目标市场
流失预测/流失分析
欺诈检测
信用评分
目标市场
商业问题:使用潜在客户列表进行直邮活
动
解决方案:人口、地理数据结合过去购买
行为数据,用数据挖掘识别确定最有希望
的回应者
收益:更高的回应率、节约活动费用
例子:Fleet金融集团
重新设计客户服务结构,包括在数据仓库
和营销自动化
文档评论(0)