数据库秘籍【荐】.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数 据 库秘籍 SJ0821 座机电话号码2043张东圆 一、简答题 1、简述数据挖掘的概念以及数据挖掘的分类。 答:数据挖掘 Data Mining,简称DM ,简单地讲就是从大量数据中挖掘或抽取出知识。数据挖掘,又称为数据库中知识发现 Knowledge Discovery from Database,简称KDD ,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。整个知识挖掘 KDD 过程是由若干挖掘步骤组成,而数据挖掘仅是其中的一个主要步骤。 数据挖掘涉及的学科领域和方法很多,有多种分类方法。 从数据分析角度出发,数据挖掘可以分为两种类型:描述型数据挖掘和预测型数据挖掘。 根据挖掘任务可以分为:分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等。 根据挖掘对象可以分为:关系数据库、面向对象数据库 Object一oriented Database 、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及w等对象的挖掘。 根据挖掘方法可以分为:机器学习方法、统计方法、聚类分析方法、探索性分析、神经网络 Neural Netwok 方法、遗传算法 GenetAlgorithm 、数据库方法、近似推理和不确定性推理方法、基于证据理论和元模式的方法、现代数学分析方法、粗糙集 Roughet 方法、集成方法等。 根据数据挖掘所能发现的知识可以分为:广义型知识挖掘、差异型知识挖掘、关联型知识挖掘、预测型知识挖掘、偏离型异常知识挖掘、不确定性知识等。 当然这些分类方法都从不同角度刻画了数据挖掘研究的策略和范畴,他们是互相交叉而又相互补充的。 2、什么是N个事务的一个调度? 答:事务的执行次序称为调度。当有N个事务要执行时,它的调度有两种方式,一种是串行调度,一种是并行调度。前者是指N个事务依次执行,可有n!种有效调度,其执行结果总是正确的;后者是指系统用分时的方法同时处理N个事务,如果一个并发调度的结果与某一个串行调度执行的结果等价,则称该并行调度是可串行化调度。3、简述Apriori算法的思想,谈谈算法的应用领域并举例。 答:Apriori算法:使用候选项集找频繁项集。它是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。 该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。 该算法的应用领域比较广泛,最典型的应用是在超市购物、银行客户等。在超市购物中比较典型的就是啤酒和尿布的例子,通过Apriori算法了解到购买尿布的人士一起购买啤酒的概率很大,因此将啤酒和尿布摆在一起有利于买卖。 4、在数据库的并发控制中,什么是“封锁的粒度”?封锁的粒度与系统的并发度之间有什么联系? 答: 封锁的粒度 Granularity 是指封锁对象的大小。封锁对象可以是逻辑单元,也可以是物理单元。封锁粒度与系统的并发度和并发控制的开销密切相关。封锁的粒度越小,并发度越高,系统开销也越大;封锁的粒度越大,并发度越低,系统开销也越小。 5、企业面对海量数据,应如何具体实施数据挖掘,使之转换成可行的结果/模型? 答:企业对海量数据的数据挖掘应依据不同的问题进行不同的挖掘过程,但总的挖掘过程如下1、问题定义。首先要明确实际工作对数据挖掘的具体要求,其次是通过对各种算法的对比来确定可用的算法。后续数据准备在此基础上进行。 2、数据收集和数据预处理。这个过程可以分为三个子步骤:数据选取、数据预处理和数据变换。数据选取确定数据挖掘任务的操作对象,即目标数据,是用户根据需求从原始数据库中抽取的一组数据;数据预处理一般包括消除数据噪声、补全缺失数据项、确保数据一致性和完成数据类型转换等;数据变换主要目的是消减数据维数,从初始特征中找出真正有用的特征,以减少数据挖掘中需要考虑的变量个数。 3、数据挖掘。基于需要执行的数据挖掘任务,这一步骤就是对变换后的数据应用具体算法来产生期望的挖掘结果。如分类、聚类、关联规则发现或序列模式发现等。 4、结果解释和评估。数据挖掘发现的模式经过评估,可能存在冗余或者无关的模式,需要将其剔除;另外,挖掘结果如何呈现给用户也是一个非常重要的问

您可能关注的文档

文档评论(0)

wulf + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档