- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
SAS8.2EnterpriseMiner数据挖掘实例
目录
SAS8.2EnterpriseMiner简介 2
EM工具具体使用说明 2
定义商业问题 3
创建一个工程 4
调用EM 4
新建一个工程 5
应用工作空间中的节点 6
数据挖掘工作流程 6
定义数据源 6
探索数据 8
设置Insight节点 8
察看Insight节点输出结果 9
准备建模数据 11
建立目标变量 11
设置目标变量 13
数据分割 21
替换缺失值 22
5.4 建模 23
回归模型 23
决策树模型 25
评估模型 28
应用模型 30
抽取打分程序 30
引入原始数据源 31
查看结果 32
参考文献: 34
SAS8.2EnterpriseMiner简介
数据挖掘就是对观测到的庞大数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。[1]
一个数据挖掘工程需要足够的软件来完成分析工作,为了计划、实现和成功建立一个数据挖掘工程,需要一个集成了所有分析阶段的软件解决方案,包括从数据抽样到分析和建模,最后公布结果信息。大部分专业统计数据分析软件只实现特定的数据挖掘技术,而SAS8.2EnterpriseMiner是一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件。SAS
8.2EnterpriseMiner把统计分析系统和图形用户界面(GUI)集成在一起,并与SAS协会定义的数据挖掘方法——SEMMA方法,即抽样(Sample)、探索
(Explore)、修改(Modify)建模(Model)、评价(Assess)紧密结合,对用户友好、直观、灵活、适用方便,使对统计学无经验的用户也可以理解和使用。
EnterpriseMiner简称EM,它的运行方式是通过在一个工作空间
(workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相应的设置,最后运行整个工作流程(workflow),便可以得到相应的结果。
EM工具具体使用说明
EM中工具分为七类:
Sample类 包含InputDataSource、Sampling、DataPartition
Explore类 包含DistributionExplorer、Multiplot、Insight、Association、VariableSelection、LinkAnalysis
(Exp.)
Modify类 包含DataSetAttribute、TransformVariable、FilterOutliers、Replacement、Clustering、SOM/Kohonen、TimeSeries(Exp.)
Medel类 包括Regression、Tree、NeuralNetwork、
Princomp/Dmneural、UserDefinedModel、Ensemble、
Memory-BasedReasoning、TwoStageModel
Assess类 包括Assessment、Reporter
Scoring类 包括Score、C*Score
Utility类 包括GroupProcessing、DataMiningDatabase、SASCode、Controlpoint、Subdiagram
每个节点的具体使用方法可以在EM打开界面,选择SAS主菜单中帮助子菜
单中的“EM参考资料”选项,进一步查看各个节点的具体使用方法。
下面我们将以客户商品信息为例来建立如下的工作流程,从而引导我们学会使用EM(EnterpriseMiner)。
定义商业问题
假设有一家目录服务公司每个月都要向发出一份服饰用品和家用器皿的商品目录。为了更好的面对商品战,公司打算发出一张主要宣传厨房用品(dining),包括厨具(kitchenware)、器皿(dishes)和餐具(flatware)的目录。由于对所有的客户发送目录的成本是公司无法承受的,所以公司需要把目标锁定在那些有购买倾向的客户。我们可以通过EM来建立一个倾向模型来完成这个任务,从而得到一个邮寄对象列表。
要完成这个任务我们需要准备好关于客户购买产品记录的数据库表,表中应该包含近两年内客户是否购买了厨具(kitchenware)、器皿(dishes)和餐具
(flatware)的数据,以及其他与客户购买倾向相关的变量。我们这里根据客户购买的历史数据建立起来了数据集(数据库表)CUSTDET1,它包含了49个变量。
上表中的TotalDining(kitch+
文档评论(0)