mablab数据仓库与数据挖掘作业.docVIP

下载本文档

2
0
约1.81千字
约 4页
2018-02-07 发布于河北
举报
版权申诉

mablab数据仓库与数据挖掘作业.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

mablab数据仓库与数据挖掘作业

江苏理工学院数据仓库与数据挖掘作业年级专业 10软件1W 学号姓名董鑫指导老师杜卓民一、名词解释：数据仓库答：数据仓库通常指一个数据库环境，而不是指一件产品，它提供用户用于决策支持的当前和历史数据，这些数据在传统的数据库中通常不方便得到。简单地说，数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，通常用于辅助决策支持。分类答：分类是指把数据样本映射到一个事先定义的类中的学习过程，即给定一组输入的属性向量及其对应的类，用基于对归纳的学习算法得出分类。聚类分析答：聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程，聚类之后的每个类别中任意俩个数据样本之间具有较高的相似度，而不同类别的数据样本之间具有较低的相似度。聚类分析是非监督学习过程，与分类学习不同，聚类所要划分的数据集没有预先定义的类别属性，即样本没有类标号。星型模式答：星型模式是最流行的数据仓库导出数据层的设计结构。星型模式通过使用一个包含主题的事实表和多个包含事实的非规范化描述的维度表来执行典型的决策支持查询。关联规则答：关联规则可以表示为一个蕴含式 R：X→Y 其中：X包含于I，Y包含于I，并且X∩Y=空集。它表示如果项集X在某一交易中出现，则会导致项集Y按照某一概率也会在统一交易中出现。X称为规则的条件，Y称为规则的结果。关联规则反映X中的项目出现时，Y中的项目也跟随出现的规律。二、简答：数据仓库的三层数据结构及各部分的含义是什么？答：操作型数据通常存储在遍及组织的各种不同的操作型记录系统中。调和数据是存储在企业级数据仓库和操作型数据存储中的数据。导出数据是存储在各个数据集市中的数据。企业数据模型描述了一个解释组织所需数据的整体轮廓。元数据是描述其他数据的属性或特征的技术和业务数据。包括操作型元数据、企业级数据仓库元数据、数据集市元数据。画出分类的过程图，并对各部分进行简要说明？答： 1、获取数据分类问题所需要的数据可以使图像，可以是波形，也可以是各种物理和逻辑数据。 2、预处理对数据的预处理通常包括：去除噪声数据，对空缺值进行处理；数据集成或者变换。 3、分类器设计分类器设计阶段包含如下3个过程：划分数据集；分类器构造；分类器测试。 4、分类决策如果在分类器设计阶段所构造的分类器的分类性能被认为是可以接受的，就可以利用该分类器对未知类标号的数据样本进行实际的分类决策。（3）贝叶斯网络的三个主要议题是什么，并简要说明？答：贝叶斯网络的主要功能是进行预测和诊断，在贝叶斯网络工作之前，需要对历史数据进行训练。所以，预测、诊断和训练构成了贝叶斯网络的三个主要议题。贝叶斯网络预测是指从起因推测一个结果的推理，也称为由顶向下的推理。目的是由原因推导出结果。已知一定的原因，利用贝叶斯网络的推理计算，求出由原因导致的结果发生的概率。贝叶斯网络诊断是指从结果推测一个起因的推理，也称为由底向上的推理。目的是在已知结果时，找出产生该结果的原因。已知发生了某些结果，根据贝叶斯网络推理计算造成该结果发生的原因和发生的概率。贝叶斯网络学习是指有先验的贝叶斯网络得到后验的贝叶斯网络的过程。先验贝叶斯网络是根据用户的先验知识构造的贝叶斯网络，后验贝叶斯网络是把先验贝叶斯网络和数据相结合而得到的贝叶斯网络。其实质是用现有数据对先验知识的修正。（4）画出数据仓库数据库的设计示意图？答：计算：现有7个训练样本X1=[1 0],X2=[0 1],X3=[0 -0.6],X4=[0 0.4],X5=[0 2.4], X6=[0 -1.6],X7=[-2 0.4],其对应的y分别为y1=1,y2=1,y3=1,y4= -1,y5= -1,y6= -1, y7= -1,现有新的样本x=[0.4 0.4],使用最近邻分类法对x进行分类（即判断y=?）说明：名词解释，简答一律为打印稿。计算题为手写，写出详细计算过程。备注：如X1=[1 0]即参照书上作列向量。