数据挖掘和商务智能总结.docVIP

下载本文档

17
0
约3.63千字
约 6页
2018-06-18 发布于安徽
举报
版权申诉

数据挖掘和商务智能总结.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

绪论什么是数据挖掘，什么是商业智能从大型数据库中提取有趣的（非平凡的、蕴涵的、先前未知的且是潜在有用的）信息或模式。商业智能是要在必须的时间段内，把正确有用的信息传递给适当的决策者，以便为有效决策提供信息支持。分类算法的评价标准召回率recall =系统检索到的相关文件数/相关文件总数准确率precision（查准率）= 系统检索到的相关文件数/系统返回的文件总数数据仓库什么是数据仓库是运用新信息科技所提供的大量数据存储、分析能力，将以往无法深入整理分析的客户数据建立成为一个强大的顾客关系管理系统，以协助企业制定精准的运营决策。数据仓库的基本特征 1面向主题2整合性 3长期性 4稳定性数据挖掘简介数据挖掘的一般功能 1分类 2估计3 预测 4关联分类 5聚类数据挖掘的完整步骤 1理解数据与数据所代表的含义 2获取相关知识与技术 3整合与检查数据 4取出错误或不一致的数据 5建模与假设 6数据挖掘运行 7测试与验证所挖掘的数据 8解释与使用数据数据挖掘建模的标准 CRISP-CM 跨行业数据挖掘的标准化过程第四章数据挖掘中的主要方法基于SQL Server 2005 SSAS的十种数据挖掘算法是什么 1.决策树 2.聚类 3.Bayes分类 4.有序规则 5. 关联规则 6.神经网络 7.线性回归 8. Logistic回归 9. 时间序列 10. 文本挖掘第五章数据挖掘与相关领域的关系数据挖掘机器学习统计商业智能（BI）的核心技术是Microsoft SQL Server Management Studio提供了两个用于管理数据库项目（如脚本、查询、数据连接和文件）的容器是什么？ 1项目 2解决方案第八章 SQL Server 2005的分析服务什么是UDM？统一维度模型第九章 SQL Server 2005的报表服务什么是报表服务，其功能是一个基于服务器的完整平台，可创建、管理和交付传统报表和交互式报表。 1制作报表 2管理报表 3提交报表第十章决策树模型什么是决策树？是数据挖掘的一项主要分析工具。（决策树能从一个或多个预测变量中，针对类别因变量的选项，预测出个例的趋势变化关系等。也可以由结果来反推原因。） SQL Server 2005决策树算法步骤第十一章贝叶斯分类什么是简单贝叶斯分类器是简单又使用的分类方法。 SQL Server 2005贝叶斯分类算法步骤第十二章关联规则什么是关联规则可解决哪些问题？是分析发现数据库中不同变量或个体间（例如商品间的关系及年龄与购买行为…）之间关系程度，并用这些规则找出顾客购买行为模式，如购买了台式计算机外设产品（打印机、音箱、硬盘…）1的时候，这条规则就是没有很大意义的。兴趣度越大，规则的实际意义就越好。 SQL Server 2005关联规则算法步骤第十三章聚类分析什么是聚类分析聚类分析的思想与判断分析类似，同样是由样本分组，寻找到多维数据点中的差异之处。不同的地方有两点：（1）聚类分析的分类方式并不需要预先指定一个指针变量；（2）聚类分析属于一种非参数分析方法，所以并没有非常严谨的数理依据，也无需假设总体为正态分布。在聚类方法中定量地描述研究对象之间的相近程度的指标两个 1相似系数 2 距离（用的比较多）聚类分析中“类”的具有什么特征（判断）聚类所说的类不是事先给定的，而是根据数据的相似性和距离来划分聚类的数目和结构都没有事先假定聚类分析方法的分类 1基于层次的方法 2基于划分的方法 k-means(K均值聚类)属于哪种聚类划分聚类的方法欧式距离的计算聚类的原则是最大化类内的相似性，最小化类间的相似性（选择） SQL Server 2005聚类分析算法步骤第十四章时序聚类分析序列聚类与关联规则挖掘区别是什么？ Sequence Clustering：在找出先后发生事物的关系，重点在于分析数据间先后序列关系。 Association则是找出某一事件或资料中会同时出现的状态，例如项目A是某事件的一部份，则项目B也出现在该事件中的机率有a %。序列模式解决什么问题？时序聚类算法用于根据某一顺序对数据分组。例如，Web应用程序的用户经常按照各种路径浏览网站。此算法可以根据浏览站点的页面顺序对用户进行分组，以帮助分析消费者并确定是否某个路径比其他路径具有更高的收益。此算法还可以用于预测，例如预测用户可能访问的下一个页面。利用顾客购买的时间间隔序列数据可以分析顾客的购买物和时间的相关性，有相同或类似行为的顾客会被分在相同的聚