数据库秘籍【荐】.docVIP

下载本文档

5
0
约6.52千字
约 7页
2018-04-14 发布于河南
举报
版权申诉

数据库秘籍【荐】.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据库秘籍 SJ0821 座机电话号码2043张东圆一、简答题 1、简述数据挖掘的概念以及数据挖掘的分类。答：数据挖掘 Data Mining，简称DM ，简单地讲就是从大量数据中挖掘或抽取出知识。数据挖掘，又称为数据库中知识发现 Knowledge Discovery from Database，简称KDD ，它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。整个知识挖掘 KDD 过程是由若干挖掘步骤组成，而数据挖掘仅是其中的一个主要步骤。数据挖掘涉及的学科领域和方法很多，有多种分类方法。从数据分析角度出发，数据挖掘可以分为两种类型:描述型数据挖掘和预测型数据挖掘。根据挖掘任务可以分为:分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等。根据挖掘对象可以分为:关系数据库、面向对象数据库 Object一oriented Database 、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及w等对象的挖掘。根据挖掘方法可以分为:机器学习方法、统计方法、聚类分析方法、探索性分析、神经网络 Neural Netwok 方法、遗传算法 GenetAlgorithm 、数据库方法、近似推理和不确定性推理方法、基于证据理论和元模式的方法、现代数学分析方法、粗糙集 Roughet 方法、集成方法等。根据数据挖掘所能发现的知识可以分为:广义型知识挖掘、差异型知识挖掘、关联型知识挖掘、预测型知识挖掘、偏离型异常知识挖掘、不确定性知识等。当然这些分类方法都从不同角度刻画了数据挖掘研究的策略和范畴，他们是互相交叉而又相互补充的。 2、什么是N个事务的一个调度？答:事务的执行次序称为调度。当有N个事务要执行时，它的调度有两种方式，一种是串行调度，一种是并行调度。前者是指N个事务依次执行，可有n！种有效调度，其执行结果总是正确的；后者是指系统用分时的方法同时处理N个事务，如果一个并发调度的结果与某一个串行调度执行的结果等价，则称该并行调度是可串行化调度。3、简述Apriori算法的思想，谈谈算法的应用领域并举例。答：Apriori算法：使用候选项集找频繁项集。它是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。该算法的应用领域比较广泛，最典型的应用是在超市购物、银行客户等。在超市购物中比较典型的就是啤酒和尿布的例子，通过Apriori算法了解到购买尿布的人士一起购买啤酒的概率很大，因此将啤酒和尿布摆在一起有利于买卖。 4、在数据库的并发控制中，什么是“封锁的粒度”？封锁的粒度与系统的并发度之间有什么联系？答: 封锁的粒度 Granularity 是指封锁对象的大小。封锁对象可以是逻辑单元，也可以是物理单元。封锁粒度与系统的并发度和并发控制的开销密切相关。封锁的粒度越小，并发度越高，系统开销也越大；封锁的粒度越大，并发度越低，系统开销也越小。 5、企业面对海量数据，应如何具体实施数据挖掘，使之转换成可行的结果/模型？答：企业对海量数据的数据挖掘应依据不同的问题进行不同的挖掘过程，但总的挖掘过程如下1、问题定义。首先要明确实际工作对数据挖掘的具体要求，其次是通过对各种算法的对比来确定可用的算法。后续数据准备在此基础上进行。 2、数据收集和数据预处理。这个过程可以分为三个子步骤:数据选取、数据预处理和数据变换。数据选取确定数据挖掘任务的操作对象，即目标数据，是用户根据需求从原始数据库中抽取的一组数据；数据预处理一般包括消除数据噪声、补全缺失数据项、确保数据一致性和完成数据类型转换等；数据变换主要目的是消减数据维数，从初始特征中找出真正有用的特征，以减少数据挖掘中需要考虑的变量个数。 3、数据挖掘。基于需要执行的数据挖掘任务，这一步骤就是对变换后的数据应用具体算法来产生期望的挖掘结果。如分类、聚类、关联规则发现或序列模式发现等。 4、结果解释和评估。数据挖掘发现的模式经过评估，可能存在冗余或者无关的模式，需要将其剔除；另外，挖掘结果如何呈现给用户也是一个非常重要的问