数据仓库与数据挖掘必考点[001].docVIP

下载本文档

0
0
约2.84千字
约 5页
2019-09-24 发布于浙江
举报
版权申诉

数据仓库与数据挖掘必考点[001].doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第一章数据仓库：是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。组成：数据仓库数据库，数据抽取工具，元数据，访问工具，数据集市，数据仓库管理，信息发布系统； 2、元数据：技术元数据业务元数据。数据处理：联机事务处理（OLTP）联机分析处理。(OLAP) 多维分析采取:切片、切块、钻取和旋转等各种分析动作。 ROLAP：关系数据库 MOLAP：多维数据结构组织的OLAP实现。 HOLAP：混合数据组织 6、数据仓库开发过程：数据抽取、数据存储与管理、数据表现； 7、数据仓库系统的体系结构根据应用需求的不同：两层架构，独立型数据集市，依赖型数据集市和操作型数据存储，逻辑型数据集市和实时数据仓库 8、操作型数据存储：是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库，也叫运营数据存储。 9、“实时数据仓库”：接近实时的速度交换数据和业务规则。 10、一个典型的数据仓库系统的组成？P12 数据源、数据存储与管理、OLAP服务器、前端工具与应用第二章 1、调和数据：是存储在企业级数据仓库和操作型数据存储中的数据。 2、抽取、转换、加载（ETL）目的:是为决策支持应用提供一个单一的、权威数据源。因此，我们要求ETL过程产生的数据（即调和数据层）是详细的、历史的、规范的、可理解的、即时的和质量可控制的。数据抽取：从源文件和源数据库中获取相关数据用于填充数据仓库；两个常见类型静态抽取用于:最初填充数据仓库；增量抽取用于:数据仓库的维护；数据清洗：使用模式识别和其他技术将原始数据转换和移到数据仓库之前升级数据质量的技术； 5、数据转换：把数据从源操作业务系统的格式转换到企业数据仓库的数据格式； 6、粒度越小，细节程度越高，综合程度越低，回答查询的种类越多。 7、多维数据建模：以维度为中心、多个角度分析有关数据的建模。存在形式：星型、雪花型、事实星座模式 8、星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理，主要数据都在庞大的事实表中。 9、维度表一般由主键、分类层次和描述属性组成。对于主键可以选择两种方式：一种是采用自然键，另一种是采用代理键。 10、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。 11、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别：早期细节级、当前细节级、轻度综合级和高度综合级。 12、简述数据仓库ETL软件的主要功能和对产生数据的目标要求。P30ETL软件的主要功能:数据的抽取，数据的转换，数据的加载对产生数据的目标要求：详细的、历史的、规范化的、可理解的、即时的、质量可控制的 13、多维数据模型中的基本概念：维，维类别，维属性，度量，粒度，分割P37 维：人们观察数据的特定角度，是考虑问题的一类属性，如时间维或产品维维类别：也称维分层。即同一维度还可以存在细节程度不同的各个类别属性（如时间维包括年、季度、月等）维属性：是维的一个取值，是数据线在某维中位置的描述。粒度：DW中数据综合程度高低的一个衡量。粒度低，细节程度高，回答查询的种类多第四章 P93 关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-growth算法的效率更高。第五章分类：把数据样本映射到一个事先定义的类中的学习过程；过程：包括获取数据、预处理、分类器设计和分类决策。评价准则：精确度查全率查准率 F-measure 几何均值分类器设计阶段包含三个过程：划分数据集、分类器构造、分类器测试。支持向量机：统计学习算法最优超平面：分类超平面不但能将两类数据无错误地分开，而且要使两类数据样本的分类间隔最大； ID3算法主要存在的缺点？P116（1）ID3算法在选择根结点和各内部结点中的分枝属性时，使用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有价值的信息。（2）ID3算法只能对描述属性为离散型属性的数据集构造决策树。近邻分类方法有几种？：最近邻分类方法、k-近邻分类方法支持向量机中常用的核函数:多项式核函数、径向基核函数和S型核函数。P126 第六章聚类分析包括：连续型、二值离散型、多值离散型、混合类型。连续型属性的数据样本之间的距离有欧氏距离：曼哈顿距离：明考斯基距离： 3、K-means算法的基本操作步骤（包括算法的输入和输出）。P138★ 划分聚类方法对数据集进行聚类时包含三要点：选种某种距离作为数据样本间的相似性度量；选择评价聚类性能的准则函数选择某个初始分类，之后用迭代的方法得到聚类结果，使得评价聚类的准则函数取得最优值。层次聚类方法：包括