数据挖掘期末题.docVIP

下载本文档

112
1
约2.82千字
约 4页
2015-08-19 发布于河南
举报
版权申诉

数据挖掘期末题.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘期末题.doc

数据挖掘考题名词解释 1数据仓库：数据仓库是决策支持系统（dss）和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。 4人工神经网络：人工神经网络（artificial neural network，缩写ANN），简称神经网络（neural network，缩写NN），是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构，是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具，常用来对输入和输出间复杂的关系进行建模，或用来探索数据的模式。 5文本挖掘：文本挖掘有时也被称为文字探勘、文本数据挖掘等，大致相当于文字分析，一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生，如模式识别。文本挖掘通常涉及输入文本的处理过程，产生结构化数据，并最终评价和解释输出。高品质的文本挖掘通常是指某种组合的相关性，新颖性和趣味性。典型的文本挖掘方法包括文本分类，文本聚类，概念/实体挖掘，生产精确分类，观点分析，文档摘要和实体关系模型。 6OLAP：联机分析处理（On-Line Analytical Processing,简称OLAP），是一套以多维度方式分析数据，而能弹性地提供积存(Roll-up)、下钻(Drill-down)、和枢纽分析(pivot)等操作，呈现集成性决策信息的方法，多用于决策支持系统、商务智能或数据仓库。其主要的功能，在于方便大规模数据分析及统计计算，对决策提供参考和支持。与之相区别的是联机交易处理(OLTP)。 7概念描述：特征化，对所选择的数据汇集给出一个简单明了的描述。比较，提供两个或以上数据汇集进行比较的结果。 8信息熵：信息熵是一個數學上頗為抽象的概念，在這裡不妨把信息熵理解成某種特定信息的出現概率（離散隨機事件的出現概率）。一個系統越是有序，信息熵就越低；反之，一個系統越是混亂，信息熵就越高。信息熵也可以說是系統有序化程度的一個度量。 1.数据仓库和传统数据库的区别和联系是什么？答:1.　简而言之，数据库是面向事务的设计，数据仓库是面向主题设计的。 2. 数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。 3. 数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。 4. 数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。 2.数据挖掘的主要功能？答： 1. 自动预测趋势和行为: 数据挖掘自动在大型数据库中寻找预测性信息，以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。　数据库中的记录可被化分为一系列有意义的子集，即聚类。概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。 3.简述OLAP在多维数据模型中的几个基本操作？答：OLAP的基本多维分析操作有钻取（Roll up，Drill down）、切片（Slice）、切块（Dice）及旋转（Pivot）等。钻取包含向下钻取和向上钻取（上卷）操作，钻取的深度与维所划分的层次相对应。上卷操作通过维规约，在数据立方体上进行聚集；下钻操作是上卷操作的逆操作，由不太详细的数据到更详细的数据。切片和切块是在一部分维上选定值后，度量数据在剩余维上的分布。、旋转（转轴）是变换维的方向，即在表格中重新安排维的放置（如行列互换），通过旋转得到不同视角的数据。 4.数据挖掘的步骤包括哪些？答：(1)数据收集:全面而丰富的数据是数据挖掘的前提,没有数据,数据挖掘就无从做起 (2)数据整理:数据整理是数据挖据的必要环节.需要对数据进行处理以满足数据挖据的要求 (3)数据挖掘:利用各种数据挖掘方法对数据进行分析’ (4)数据挖据结果评估:数据挖掘的结果有些是有意义的,有些是没有意义的,这就需要结果评估 (5)分析决策:数据挖掘的最终目的是辅助决策,决策者可以根据数据挖掘