数据挖掘-决策分析.doc

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘-决策分析

实验报告一:决策树方法 实验目的: 使用SQL Server Business Intelligence Development Studio对上述数据建立数据立方体,并进行数据挖掘分析,挖掘的知识类型不限,将挖掘过程和结果形成实验报告。 实验内容: (1) 利用给定的数据库,新建一个数据挖掘项目; (2) 依次建立数据源,数据源视图,维度,多维度数据集,挖掘机构; (3) 选择不同的算法对挖掘的结果进行分析,预测. (4) 根据以上分析,提出可以执行的决策 实验步骤: 创建 Analysis Services 项目 更改存储数据挖掘对象的实例 创建数据源视图创建用于目标邮件方案的挖掘结构创建目标邮件方案的第一步是使用 Business Intelligence Development Studio 中的数据挖掘向导创建新的挖掘结构和决策树挖掘模型。 在本任务中,您将基于 Microsoft 决策树算法创建初始挖掘结构。若要创建此结构,需要首先选择表和视图,然后标识将用于定型的列和将用于测试的列 在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。 在“欢迎使用数据挖掘向导”页上,单击“下一步”。 在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。 在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft 决策树”。 单击“下一步”。 在“选择数据源视图”页上的“可用数据源视图”窗格中,选择 Targeted Mailing。可单击“浏览”查看数据源视图中的各表,然后单击“关闭”返回该向导。 单击“下一步”。 在“指定表类型”页上,选中 vTargetMail 的“事例”列中的复选框以将其用作事例表,然后单击“下一步”。稍后您将使用 ProspectiveBuyer 表进行测试,不过现在可以忽略它。 在“指定定型数据”页上,您将为模型至少标识一个可预测列、一个键列以及一个输入列。选中 BikeBuyer 行中的“可预测”列中的复选框。 单击“建议”打开“提供相关列建议”对话框。 只要选中至少一个可预测属性,即可启用“建议”按钮。“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。显著相关的列(置信度高于 95%)将被自动选中以添加到模型中。 查看建议,然后单击“取消”忽略建议。 确认在 CustomerKey 行中已选中“键”列中的复选框。 选中以下行中“输入”列中的复选框。可通过下面的方法来同时选中多个列:突出显示一系列单元格,然后在按住 Ctrl 的同时选中一个复选框。 Age CommuteDistance EnglishEducation EnglishOccupation Gender GeographyKey HouseOwnerFlag MaritalStatus NumberCarsOwned NumberChildrenAtHome Region TotalChildren YearlyIncome 在该页的最左侧的列中,选中以下行中的复选框。 AddressLine1 AddressLine2 DateFirstPurchase EmailAddress FirstName LastName 确保这些行仅选择了左侧列中的复选标记。这些列将添加到结构中,但不会包含在模型中。但是,模型生成后,它们将可用于钻取和测试。有关钻取的详细信息,请参阅针对挖掘模型和挖掘结构使用钻取(Analysis Services – 数据挖掘)。 单击“下一步”。 检查和修改每列的内容类型和数据类型 在“指定列的内容和数据类型”页上,单击“检测”运行用来确定每列的默认数据类型和内容类型的算法。 查看“内容类型”和“数据类型”列中的各项;如有必要,请进行更改,以确保设置与下表所示一致。 通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。例如,GeographyKey 应作为文本处理,因为对此标识符进行数学运算是不对的。 列 内容类型 数据类型 Address Line1 Discrete Text Address Line2 Discrete Text Age Continuous Long Bike Buyer Discrete Long Commute Distance Discrete Text CustomerKey Key Long DateLastPurchase Continuous Date Email Address Discrete

文档评论(0)

wuyuetian + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档