数据挖掘分析报告.docVIP

下载本文档

6
0
约4.86千字
约 10页
2017-08-21 发布于云南
举报
版权申诉

数据挖掘分析报告.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

目录 1. 概述 1 2. 客户属性评估 1 3. 挖掘算法评估 3 4. 挖掘过程 5 5. 挖掘评估总结 6 6. 建议 7 概述为了挖掘客户中购买产品的数据与客户属性的关系，即哪些类型的客户会购买比较多数量的产品。我们将数据进行分析，重点针对用户的购买量，力图找出购买量大的客户类型，并提出相关建议。客户属性评估客户属性如下： [CustomerKey] ,[GeographyKey] ,[CustomerAlternateKey] ,[Title] ,[FirstName] ,[MiddleName] ,[LastName] ,[NameStyle] ,[BirthDate] ,[MaritalStatus] ,[Suffix] ,[Gender] ,[EmailAddress] ,[YearlyIncome] ,[TotalChildren] ,[NumberChildrenAtHome] ,[EnglishEducation] ,[SpanishEducation] ,[FrenchEducation] ,[EnglishOccupation] ,[SpanishOccupation] ,[FrenchOccupation] ,[HouseOwnerFlag] ,[NumberCarsOwned] ,[AddressLine1] ,[AddressLine2] ,[Phone] ,[DateFirstPurchase] ,[CommuteDistance] 其中，去掉重复后比较有分析价值的有[Gender] [TotalChildren] [YearlyIncome] [CommuteDistance] [EnglishEducation] [EnglishOccupation] 所以我们将对这些属性进行分析。挖掘算法评估 MS提供的9个算法分别为：　　1.决策树算法　　决策树，又称判定树，是一种类似二叉树或多叉树的树结构。决策树是用样本的属性作为结点，用属性的取值作为分支，也就是类似流程图的过程，其中每个内部节点表示在一个属性上的测试，每个分支代表一个测试输出，而每个树叶节点代表类或类分布。它对大量样本的属性进行分析和归纳。根结点是所有样本中信息量最大的属性，中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性，决策树的叶结点是样本的类别值。　　从树的根结点出发，将测试条件用于检验记录，根据测试结果选择适当的分支，沿着该分支或者达到另一个内部结点，使用新的测试条件或者达到一个叶结点，叶结点的类称号就被赋值给该检验记录。决策树的每个分支要么是一个新的决策节点，要么是树的结尾，称为叶子。在沿着决策树从上到下遍历的过程中，在每个节点都会遇到一个问题，对每个节点上问题的不同回答导致不同的分支，最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程。决策树算法能从一个或多个的预测变量中，针对类别因变量，预测出个例的趋势变化关系。　　在sql server 2008中，我们可以通过挖掘模型查看器来查看决策树模型。如图1所示。　　图1 　　在图1中，我们可以看到决策树显示由一系列拆分组成，最重要的拆分由算法确定，位于“全部”节点中查看器的左侧。其他拆分出现在右侧。依赖关系网络显示了模型中的输入属性和可预测属性之间的依赖关系。并能通过滑块来筛选依赖关系强度。　　2.聚类分析算法　　聚类分析算法就是衡量个体间的相似度，是依据个体的数据点在几何空间的距离来判断的，距离越近，就越相似，就越容易归为一类。在最初定义分类后，算法将通过计算确定分类表示点分组情况的适合程度，然后尝试重新定义这些分组以创建可以更好地表示数据的分类。该算法将循环执行此过程，直到它不能再通过重新定义分类来改进结果为止。简单得说，聚类就是将数据对象的集合分组成为由类似的对象组成的多个类的过程。聚类用在商务方面的客户分析中，可以从客户库中发现不同的客户群，并分析不同客户群的行为模式。　　在sql server 2008中，我们可以通过挖掘模型查看器来查看聚类分析模型。如图2所示。　　图2 　　在图2中，分类关系图表现个类间关联性的强弱。分类剖面图了解因变量与自变量的关联性强弱程度。分类特征主要呈现每一类的特性。分类对比主要呈现出两类间特性的比较。　　3.Naive Bayes 算法　　Naive Ba