数据挖掘与商务智能总结.docVIP

下载本文档

14
0
约3.94千字
约 6页
2017-08-24 发布于河南
举报
版权申诉

数据挖掘与商务智能总结.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

绪论什么是数据挖掘，什么是商业智能从大型数据库中提取有趣的（非平凡的、蕴涵的、先前未知的且是潜在有用的）信息或模式。商业智能是要在必须的时间段内，把正确有用的信息传递给适当的决策者，以便为有效决策提供信息支持。分类算法的评价标准召回率recall =系统检索到的相关文件数/相关文件总数准确率precision（查准率）= 系统检索到的相关文件数/系统返回的文件总数数据仓库什么是数据仓库是运用新信息科技所提供的大量数据存储、分析能力，将以往无法深入整理分析的客户数据建立成为一个强大的顾客关系管理系统，以协助企业制定精准的运营决策。数据仓库的基本特征 1面向主题2整合性 3长期性 4稳定性数据挖掘简介数据挖掘的一般功能 1分类 2估计3 预测 4关联分类 5聚类数据挖掘的完整步骤 1理解数据与数据所代表的含义 2获取相关知识与技术 3整合与检查数据 4取出错误或不一致的数据 5建模与假设 6数据挖掘运行 7测试与验证所挖掘的数据 8解释与使用数据数据挖掘建模的标准 CRISP-CM 跨行业数据挖掘的标准化过程第四章数据挖掘中的主要方法基于SQL Server 2005 SSAS的十种数据挖掘算法是什么 1.决策树 2.聚类 3.Bayes分类 4.有序规则 5. 关联规则 6.神经网络 7.线性回归 8. Logistic回归 9. 时间序列 10. 文本挖掘第五章数据挖掘与相关领域的关系数据挖掘与机器学习、统计分析之间的区别与联系（再看看书整理下） 32页处理大量实际数据更具优势，并且使用数据挖掘工具无需具备专业的统计学背景。数据分析的需求和趋势已经被许多大型数据库所实现，并且可以进行企业级别的数据挖掘应用。相对于重视理论和方法的统计学而言，数据挖掘更强调应用，毕竟数据挖掘目的是方便企业用户的使用。第六章 SQL Server 2005中的商业智能商业智能（BI）的核心技术是什么数据仓库和数据挖掘第七章 SQL Server 2005中的数据挖掘 Microsoft SQL Server Management Studio提供了两个用于管理数据库项目（如脚本、查询、数据连接和文件）的容器是什么？ 1项目 2解决方案第八章 SQL Server 2005的分析服务什么是UDM？统一维度模型第九章 SQL Server 2005的报表服务什么是报表服务，其功能是一个基于服务器的完整平台，可创建、管理和交付传统报表和交互式报表。 1制作报表 2管理报表 3提交报表第十章决策树模型什么是决策树？是数据挖掘的一项主要分析工具。（决策树能从一个或多个预测变量中，针对类别因变量的选项，预测出个例的趋势变化关系等。也可以由结果来反推原因。） SQL Server 2005决策树算法步骤第十一章贝叶斯分类什么是简单贝叶斯分类器是简单又使用的分类方法。 SQL Server 2005贝叶斯分类算法步骤第十二章关联规则什么是关联规则可解决哪些问题？是分析发现数据库中不同变量或个体间（例如商品间的关系及年龄与购买行为…）之间关系程度，并用这些规则找出顾客购买行为模式，如购买了台式计算机外设产品（打印机、音箱、硬盘…）的相关影响。发现这样的规则可以应用于商品货架摆设、库存安排以及根据购买行为模式对客户进行分类。兴趣度指标的意义当兴趣度指标大于1的时候，这条规则就是比较好的；当兴趣度小于1的时候，这条规则就是没有很大意义的。兴趣度越大，规则的实际意义就越好。 SQL Server 2005关联规则算法步骤第十三章聚类分析什么是聚类分析聚类分析的思想与判断分析类似，同样是由样本分组，寻找到多维数据点中的差异之处。不同的地方有两点：（1）聚类分析的分类方式并不需要预先指定一个指针变量；（2）聚类分析属于一种非参数分析方法，所以并没有非常严谨的数理依据，也无需假设总体为正态分布。在聚类方法中定量地描述研究对象之间的相近程度的指标两个 1相似系数 2 距离（用的比较多）聚类分析中“类”的具有什么特征（判断）聚类所说的类不是事先给定的，而是根据数据的相似性和距离来划分聚类的数目和结构都没有事先假定聚类分析方法的分类 1基于层次的方法 2基于划分的方法 k-means(K均值聚类)属于哪种聚类划分聚类的方法欧式距离的计算聚类的原则是最大化类内的相似性，最小化类间的相似性（选择） SQL Server 2005聚类分析算法步骤第十四章时序聚类分析序列聚类与关联规则挖掘区别是什么？ Sequenc