2014知识发现与数据开采试题及答案.docx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
什么叫数据挖掘? 数据挖掘是指从数据库的大量数据中揭示出隐含的、 先前未知的并有潜在价值的信息的 非平凡过程。数据挖掘是一种决策支持过程。 数据挖掘一般有哪些步骤? 从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、 数据变换、数据挖掘实施过程、模式评估和知识表示 8 个步骤。 步骤( 1)信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信 息,然后选择合适的信息收集方法, 将收集到的信息存入数据库。 对于海量数据, 选择一个 合适的数据存储和管理的数据仓库是至关重要的。 步骤( 2)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集 中,从而为企业提供全面的数据共享。 步骤( 3)数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长 的时间, 而做商业运营数据挖掘时数据量往往非常大。 数据规约技术可以用来得到数据集的 规约表示, 它小得多, 但仍然接近于保持原数据的完整性, 并且规约后执行数据挖掘结果与 规约前执行结果相同或几乎相同。 步骤( 4)数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属 性值)、含噪声的(包含错误的属性值) ,并且是不一致的(同样的信息不同的表示方式) , 因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结 果会差强人意。 步骤( 5)数据变换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数 据挖掘的形式。 对于有些实数型数据, 通过概念分层和数据的离散化来转换数据也是重要的 一步。 步骤( 6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统 计方法、事例推理、决策树、规则推理、 模糊集,甚至神经网络、 遗传算法的方法处理信息, 得出有用的分析信息。 步骤( 7)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。 步骤( 8)知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作 为新的知识存放在知识库中,供其他应用程序使用。 数据挖掘的功能大致有哪些? (1)自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息, 以往需要进行大量手工分析的问题, 如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使 用过去有关促销的数据来寻找未来投资中回报最大的用户, 其它可预测的问题包括预报 破产以及认定对指定事件最可能作出反应的群体。 (2)关联分析 数据关联,是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取 值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关 联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数, 即使知道也是不确定的,因此关联分析生成的规则带有可信度。 (3)聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观 现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方 法和数学分类学。 80 年代初, Mchalski 提出了概念聚类技术牞其要点是,在划分对象时 不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术 的某些片面性。 概念描述 概念描述,就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描 述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象 之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性 描述的方法很多,如决策树方法、遗传算法等。 偏差检测 数据库中的数据常有一些异常记录, 从数据库中检测这些偏差很有意义。 偏差包括 很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的 偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意 义的差别。 什么叫孤立点(outlier) ? 在数学上是指坐标满足曲线方程,但并不落在曲线上的点。孤立点也可以指是在数 据集合中与大多数数据的特征或不一致的数据。 什么叫数据仓库? 数据仓库(Data Warehouse)是一个面向主题的( Subject Oriented )、集成的 (Integrated )、相对稳定的(Non-Volatile )、反映历史变化(Time Variant)的数据集合, 用于支持管理决策(Decision Making Support)。数据仓库是为企业所有级别的决策制定过 程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支 持的目的而创建。 为企业提供需要业务智能来指导业务流程改进和监视时间、成本、 质量和控制。 为什么数据仓库的数据是非挥发的?

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档