数据挖掘实验报告要点解析.doc

下载文档 降价啦

3
0
约8.08千字
约 23页
2017-05-13 发布于湖北
举报
版权申诉
保障服务

数据挖掘实验报告要点解析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘实验报告要点解析

数据挖掘概念与分析实验报告编制日期: 目录一、相关名词解释 3 1.1数据仓库 3 1.2数据挖掘 3 1.3决策树 3 1.4时序 3 1.5关联规则 4 二、实验环境 4 三、实验准备 5 四、实验内容 5 五、实验步骤 5 5.1对数据挖掘相关名词进行理解和运用 5 5.2对本次实验的数据库环境进行熟悉环境 5 5.3准备工作 5 5.3.1 创建一个 Analysis Services 项目 5 5.3.2创建一个数据源 6 5.3.3创建数据源视图 8 5.4挖掘步骤 10 5.4.1 Microsoft决策树挖掘技术—创建用于目标邮件方案的挖掘结构 10 5.4.2 Microsoft时序挖掘技术—各个型号自行车的销售量做出预测 14 5.4.3 Microsoft关联规则挖掘技术—创建市场篮方案 15 5.4.4 Microsoft时序分析与聚类分析挖掘技术—查看客户浏览 Adventure Works 网站的方式 17 5.5数据挖掘结果分析 19 5.5.1 Microsoft决策树挖掘技术—目标邮件方案的挖掘结果分析 19 5.5.2 Microsoft时序挖掘技术—各个型号自行车的销售量预测结果分析 20 5.5.3 Microsoft关联规则挖掘技术—创建市场篮方案结果分析 21 5.5.4 Microsoft时序分析与聚类分析挖掘技术—查看客户浏览 Adventure Works 网站的方式结果分析 22 一、相关名词解释 1.1数据仓库 a) 英文名称为Data Warehouse，可简写为DW。数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。数据仓库系统是一个信息提供平台，他从业务处理系统获得数据，主要以星型模型和雪花模型进行数据组织，并为用户提供各种手段从数据中获取信息和知识。从功能结构化分，数据仓库系统至少应该包含数据获取（Data Acquisition）、数据存储（Data Storage）、数据访问（Data Access）三个关键部分。1.2数据挖掘 a) 数据挖掘(Data Mining)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点：数据挖掘就是从存放在数据库，数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘，又称为数据库中知识发现(Knowledge Discovery in Database, KDD)，也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下步骤组成：（1）数据清理，（2）数据集成，（3）数据选择，（4）数据变换，（5）数据挖掘，（6）模式评估，（7）知识表示。数据挖掘可以与用户或知识库交互。1.3决策树 a) 决策树是用二叉树形图来表示处理逻辑的一种工具。可以直观、清晰地表达加工的逻辑要求。特别适合于判断因素比较少、逻辑组合关系不复杂的情况。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如，在贷款申请中，要对申请的风险大小做出判断，决策树的基本组成部分：决策节点、分支和叶子。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来预测（就像上面的银行官员用他来预测贷款风险）。常用的算法有CHAIDCART、Quest 和C5.0。1.4时序 a) Microsoft 时序算法是 Microsoft SQL Server 2005 Analysis Services (SSAS) 提供的回归算法，用于创建数据挖掘模型以预测连续列，如预测方案中的产品销售额。其他 Microsoft 算法创建依靠给定输入列来预测可预测列的模型（如决策树模型），而时序模型的预测则仅根据算法在创建模型时从原始数据集派生的趋势。以下关系图显示了一个典型模型，用于预测各个时间的销售额。关系图关系图中显示的该模型由两部分组成：历史信息以红色显示，预测信息以蓝色显示。红色数据代表算法用于创建模型的信息，而蓝色数据则代表模型的预测。由红色数据和蓝色数据联合形成的线称为“序列”。每个预测模型必须包含一个事例序列，即区分序列列中不同点的列。例如，因为关系图中的数据显示了几个月中的历史和预测销售额序列，因此数据列为事例序列。Microsoft 时序算法的一个重要功能就是可以执行交叉预测。也就是说