数据库挖掘复习提纲.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
绪论 (1)什么是数据挖掘(Data Mining) 数据挖掘是从大量数据中发现并提取隐藏在内的、人们事先不知道的但又可能有用的信息和知识的一种新技术 (2)什么是商业智能 BI(Business Intelligence) 商务智能,指用现代数据仓库技术、在线分析处理技术和数据挖掘技术进行数据分析以实现商业价值。 (3)分类算法的评价标准 准确率(查准率)precision=系统检索到的相关文件数/系统返回到的文件总数 召回率(查全率)recall=系统检索到的相关文件数/相关文件数 数据仓库 (1)什么是数据仓库 是一个用以更好地支持企业(或组织)决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合。本质上和数据库一样,是长期储存在计算机内的、有组织、可共享的数据集合。 (2)数据仓库的基本特征 面向主题 整合性 长期性 稳定性 数据挖掘简介 (1)数据挖掘的一般功能 分类 估计 预测 关联分组 聚类 (2)数据挖掘的完整步骤 明确挖掘任务 对所选择数据进行预处理 选择具体的算法进行挖掘 对挖掘出的模式进行评价 消减重复部分 展现最终的结果 (3)数据挖掘建模的标准 CRISP-CM(跨行业数据挖掘的标准化过程) 第四章 数据挖掘中的主要方法 (1)基于SQL Server 2005 SSAS的十种数据挖掘算法是什么 1.决策树 2.聚类 3.Bayes分类 4.有序规则 5. 关联规则 6.神经网络 7.线性回归 8. Logistic回归 9. 时间序列 10. 文本挖掘 第五章 数据挖掘与相关领域的关系 (1)数据挖掘机器学习统计商业智能(BI)的核心技术是Microsoft SQL Server Management Studio提供了两个用于管理数据库项目(如脚本、查询、数据连接和文件)的容器是什么? 答:项目和解决方案 第八章 SQL Server 2005的分析服务 什么是UDM? 答:统一维度模型 第九章 SQL Server 2005的报表服务 (1)什么是报表服务,其功能 Reporting Services 是一个基于服务器的完整平台,可创建、管理和交付传统报表和交互式报表。它包括创建、分发和管理报表所需的一切工具和信息。同时,产品的标准模块化设计和应用程序编程接口(API)是软件开发人员、数据提供商和企业能够继承所有系统或第三方应用程序中的报表功能。 功能: 可以基于关系、多维和XML数据源。 提供了表格、矩阵、图表和自由格式的报表布局。 支持即席报表。 钻取报表和交互性。 支持参数化报表。 提供多种显示格式。 支持自定义控件或报表项。 提供导航功能。 提供聚合功能。 支持图形元素。 第十章 决策树模型 (1)什么是决策树? 决策树是数据挖掘的一项主要分析工具。决策树能从一个或多个预测变量中,针对类别因变量的选项,预测出个例的趋势变化关系等。也可以由结果来反推原因。 第十一章 贝叶斯分类 (1)什么是简单贝叶斯分类器 简单贝叶斯分类器(Na?ve Bayes Classifier),主要的运作原理,是通过训练样本,举习记忆分类根据所使用属性的关系,产生这些训练样本的中心概念,再用学习后的中心概念对未归类豹数据对象,进行类别预测,以得到受测试数据对象的目标值。每只训练样本,一般含有分类相关联属性的值,及分类结果(称为目标值)。 第十二章 关联规则 (1)什么是关联规则可解决哪些问题? 关联规则是分析发现数据库中不同变量或个体间(例如商品间的关系及年龄与购买行为……)之间关系程度,并用这些规则找出顾客购买行为模式,如购买了台式计算机对购买其他计算机外设产品(打印机、音箱、硬盘……)的相关影响。发现这样的规则可以应用于商品货架摆设、库存安排以及根据购买行为模式对客户进行分类。 (2)兴趣度指标的意义Interesting 当兴趣度大于1的时,这条规则就是比较好的;当兴趣度小于1的时候,这条规则就是没有很大意义的。兴趣度越大,规则的实际意义就越好。 第十三章 聚类分析 (1)什么是聚类分析 聚类分析(Cluster analysis)是一种分类的方法,目的在将相似的事物归类。可以将变量分类,使同一类中的事物相对于某些变置来说是相同的,相似的或是同质的。而类与类之间确有着显著的差异或是异质性。 (2)在聚类方法中定量地描述研究对象之间的相近程度的指标 答:相似系数和距离 (3)聚类分析中“类”的具有什么特征 聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定 (4)聚类分析方法的分类 层次的方法(也称系统聚类法)(hierarchical method) 划分方法(partitioning method) (5)k-means(K

文档评论(0)

yan666888 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档