- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数 据 库秘籍
SJ0821 座机电话号码2043张东圆
一、简答题
1、简述数据挖掘的概念以及数据挖掘的分类。
答:数据挖掘 Data Mining,简称DM ,简单地讲就是从大量数据中挖掘或抽取出知识。数据挖掘,又称为数据库中知识发现 Knowledge Discovery from Database,简称KDD ,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。整个知识挖掘 KDD 过程是由若干挖掘步骤组成,而数据挖掘仅是其中的一个主要步骤。
数据挖掘涉及的学科领域和方法很多,有多种分类方法。
从数据分析角度出发,数据挖掘可以分为两种类型:描述型数据挖掘和预测型数据挖掘。
根据挖掘任务可以分为:分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等。
根据挖掘对象可以分为:关系数据库、面向对象数据库 Object一oriented Database 、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及w等对象的挖掘。
根据挖掘方法可以分为:机器学习方法、统计方法、聚类分析方法、探索性分析、神经网络 Neural Netwok 方法、遗传算法 GenetAlgorithm 、数据库方法、近似推理和不确定性推理方法、基于证据理论和元模式的方法、现代数学分析方法、粗糙集 Roughet 方法、集成方法等。
根据数据挖掘所能发现的知识可以分为:广义型知识挖掘、差异型知识挖掘、关联型知识挖掘、预测型知识挖掘、偏离型异常知识挖掘、不确定性知识等。
当然这些分类方法都从不同角度刻画了数据挖掘研究的策略和范畴,他们是互相交叉而又相互补充的。
2、什么是N个事务的一个调度?
答:事务的执行次序称为调度。当有N个事务要执行时,它的调度有两种方式,一种是串行调度,一种是并行调度。前者是指N个事务依次执行,可有n!种有效调度,其执行结果总是正确的;后者是指系统用分时的方法同时处理N个事务,如果一个并发调度的结果与某一个串行调度执行的结果等价,则称该并行调度是可串行化调度。3、简述Apriori算法的思想,谈谈算法的应用领域并举例。
答:Apriori算法:使用候选项集找频繁项集。它是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
该算法的应用领域比较广泛,最典型的应用是在超市购物、银行客户等。在超市购物中比较典型的就是啤酒和尿布的例子,通过Apriori算法了解到购买尿布的人士一起购买啤酒的概率很大,因此将啤酒和尿布摆在一起有利于买卖。
4、在数据库的并发控制中,什么是“封锁的粒度”?封锁的粒度与系统的并发度之间有什么联系?
答: 封锁的粒度 Granularity 是指封锁对象的大小。封锁对象可以是逻辑单元,也可以是物理单元。封锁粒度与系统的并发度和并发控制的开销密切相关。封锁的粒度越小,并发度越高,系统开销也越大;封锁的粒度越大,并发度越低,系统开销也越小。
5、企业面对海量数据,应如何具体实施数据挖掘,使之转换成可行的结果/模型?
答:企业对海量数据的数据挖掘应依据不同的问题进行不同的挖掘过程,但总的挖掘过程如下1、问题定义。首先要明确实际工作对数据挖掘的具体要求,其次是通过对各种算法的对比来确定可用的算法。后续数据准备在此基础上进行。
2、数据收集和数据预处理。这个过程可以分为三个子步骤:数据选取、数据预处理和数据变换。数据选取确定数据挖掘任务的操作对象,即目标数据,是用户根据需求从原始数据库中抽取的一组数据;数据预处理一般包括消除数据噪声、补全缺失数据项、确保数据一致性和完成数据类型转换等;数据变换主要目的是消减数据维数,从初始特征中找出真正有用的特征,以减少数据挖掘中需要考虑的变量个数。
3、数据挖掘。基于需要执行的数据挖掘任务,这一步骤就是对变换后的数据应用具体算法来产生期望的挖掘结果。如分类、聚类、关联规则发现或序列模式发现等。
4、结果解释和评估。数据挖掘发现的模式经过评估,可能存在冗余或者无关的模式,需要将其剔除;另外,挖掘结果如何呈现给用户也是一个非常重要的问
您可能关注的文档
- 政府监督范围【荐】.doc
- 政府规模与经济增长_兼论中国财政的最优规模【荐】.pdf
- 教会你期刊查询方法【荐】.ppt
- 教你吃大枣【荐】.doc
- 教你怎样吃大枣【荐】.doc
- 教你怎样巧吃大枣【荐】.doc
- 教坛新秀话题阐述【荐】.ppt
- 教学团队申请表【荐】.doc
- 教师招聘相关试题4【荐】.pdf
- 教师言语行为论文课堂教学论文课堂教学质量论文【荐】.doc
- 2025福建三明市直属事业单位选聘2人笔试备考题库及答案解析.docx
- 2025浙江宁波市慈溪市逍林初级中学招聘派遣制人员笔试备考题库及答案解析.docx
- 2025四川内江市隆昌市黄家镇桂花井小学见习岗位需求1人笔试备考试题及答案解析.docx
- 2025重庆军通汽车有限责任公司招聘2人笔试备考题库及答案解析.docx
- 2025云南师范大学附属中学招聘人员(8人)笔试备考题库及答案解析.docx
- 2025江西赣州市综合检验检测院招募见习人员35人笔试备考题库及答案解析.docx
- 2025宜良长水实验中学骨干教师招聘笔试备考题库及答案解析.docx
- 2025广西凭祥国家重点开发开放试验区管理委员会招聘1人笔试备考试题及答案解析.docx
- 2025山西临汾市大宁县人力资源和社会保障局开发公益性岗位招用就业困难高校毕业生14人笔试备考题库及答案解析.docx
- 2024-2025学年江苏医药职业学院单招考试文化素质数学考试综合练习【易错题】附答案详解.docx
文档评论(0)