已经完成的数据挖掘作业.docxVIP

  • 0
  • 0
  • 约1.12万字
  • 约 18页
  • 2019-11-06 发布于广东
  • 举报
《数据挖掘》作业 第一章引言 一、 填空题 (1) 数据库屮的知识挖掘(KDD)包括以下七个步骤: 数据清理,数据集成,数据选择, 数据变换,数据挖掘,模式评估,和—知识表示 (2) 数据挖掘的性能问题主要包括:算法的效率、町扩展性和并行处理 (3) 当前的数据挖掘研究屮,最主要的三个研究方向是:统计?、数据庄技术和机器#习 (4) 在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘 (5) 孤立点是指:?吐少数据的?般行为或模型不?致的孤立数据 二、 单选题 B (1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于: A、所涉及的算法的复杂性; B、所涉及的数据量; C、计算结果的表现形式; D、是否使用了人工智能技术 D (2)孤立点挖掘适用于下列哪种场合? A、目标帀场分析 B、购物篮分析 C、模式识别 D、信用卡欺诈检测 (3) 下列几种数据挖掘功能中,(D )被广泛的应用于股票价格走势分析 A.关联分析 B.分类和预测 C.聚类分析 D.演变分析 (4) 下面的数据挖掘的任务中,(B )将决定所使用的数据挖掘功能 A、选择任务相关的数据 B、选择耍挖掘的知识类型 C、模式的兴趣度度量 D、模式的可视化表示 (5) 下列儿种数据挖掘功能中,(A)被广泛的用于购物篮分析 A、关联分析 B、分类和预测 C、聚类分析 D、演变分析 (6) 根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖 掘功能是(B ) A.关联分析 B.分类和预测 C.演变分析 D.概念描述 (7) 帮助市场分析人员从客户的基本信息库屮发现不同的客户群,通常所使川的数据挖掘 功能是(C ) A.关联分析B.分类和预测 C.聚类分析 D.孤立点分析 E.演变分析 (8) 假设现在的数据挖掘任务是解析数据库中关于客户的-般特征的描述,通常所使用的 数据挖掘功能是(E ) A.关联分析B.分类和预测 C.孤立点分析 D.演变分析 E.概念描述 三、 简答题 (1) 什么是数据挖掘? 答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先 前未知的和可能有用的模式或知识。 (2) 一个典型的数据挖掘系统应该包括哪些组成部分? 答:一个典型的数据挖掘系统应该包括以下部分: 数据库、数据仓库或其他信息库 数据库或数据仓库服务器 知识库 数据挖掘引擎 模式评佔模块 图形用户界面 (3) 请简述不同历史时代数据库技术的演化。 答:1960年代和以前:研究文件系统。 1970年代:出现层次数据库和网状数据库。 1980年代早期:关系数据模型,关系数据库管理系统(RDBMS)的实现 1980年代后期:岀现各种高级数据库系统(如:扩展的关系数据库、面向对彖数 据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等。 199()年代:研究的重点转移到数据挖掘,数据仓库,多媒体数据库和网络数据库。 2000年代:人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML 数据库和整合的信息系统。 (4) 请列举数据挖掘应用常见的数据源。 (或者说,我们都在什么样的数据上进行数据挖掘) 答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息 库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数 据、多媒体数据库、血向对象数据库和对象■关系数据库、异种数据库和遗产(legacy)数据库、 文本数据库和万维网(WWW)等。 (5) 什么是模式兴趣度的客观度量和主观度量? 答:容观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度, 比如:支持度、置信度等等;主观度量基于用户对数据的判断來衡量模式的兴趣度,比如: 出乎意料的、新颖的、可行动的等等。 (6) 在哪些情况下,我们认为所挖掘岀來的模式是有趣的? 答:一个模式是有趣的,如果⑴它易于被人理解;(2)在某种程度上,对于新的或 测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。 (7) 根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别? 答:根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类 聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。 第二章数据仓库和数据挖掘的OLAP技术 一、填空题 一、(I)数据仓库的多维数据模型可以有三种不同的形式,分别是:星形模式、雪花模式 利I出实星座模式 给定基本方体,方体的物化有三种选择:不物化、部分物化和全物化 著名的数据仓库系统设计师W. H. Inmon认为,数据仓库少其他数据存储系统的区别 的四个特征是?面向主题、数据集成、随时间而变化和数据不易丢失 在

文档评论(0)

1亿VIP精品文档

相关文档