数据挖掘作业精选.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘作业精选

作业作为平时成绩(占20%)的衡量标准:一共有24道题,希望大家认真做,不收打印版! 1.什么是数据挖掘?在你的回答中,针对以下问题: (a)它又是一种广告宣传吗? (b)它是一种从数据库、统计学和机器学习发展的技术的简单转换吗? (c) 解释数据库技术发展如何导致数据挖掘。 (d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。 2.数据仓库和数据库有何不同?有哪些相似之处? 3.简述以下高级数据库系统和应用:对象——关系数据库、空间数据库、文本数据库、多媒体数据库、流数据和万维网。 4.定义下列数据挖掘功能:特征化,区分、关联和相关分析、分类、预测、聚类和演变分析。 5.区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处。 6.解释为什么概念分层在数据挖掘中是有用的。 7.描述以下数据挖掘系统与数据库或数据仓库集成方法的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。你认为哪种方法最流行,为什么? 8.试描述关于数据挖掘方法和用户交互问题的三个数据挖掘挑战。 9.与挖掘少量数据相比,挖掘海量数据的主要挑战是什么? 10.数据的质量可以用精确性、完整性和一致性来评估。提出数据质量的两种其他尺度。 11.假设给定的数据集的值已经分组为区间。区间和对应的频率如下: 年龄 频率 年龄 频率 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 计算数据的近似中位数值。 12.假定用于分析的数据包含属性age。数据元组的age值以递增序为:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46, 52,70 (a)该数据的均值是什么?中位数是什么? (b) 该数据的众数是什么?讨论数据的峰。 (c) 数据的中列数是什么? (d)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)。 (e)给出数据的五数概括。 13. 假设12个销售价格记录组已经排序如下: 5,10,11,13,15,35,50,55,72,92,204,215 使用如下每种方法将它们划分为三个箱。 (a)等频划分 (b) 等宽划分 (c)聚类划分 14.简述比较以下概念,可以用例子解释你的观点。 (a)雪花形模式、事实星座形、星形网查询模型 (b) 数据清理、数据变换、刷新 (c) 企业数据仓库、数据集市、虚拟仓库 15.假定数据仓库包含三维:time,doctor和patient;和两个度量:count和charge;其中,charge是医生对病人一次诊治的收费。 (a)列举三种流行的数据仓库建模模式。 (b) 使用(a)列举的模式之一,画出上面的数据仓库模式图。 (c) 由基本方体[day ,doctor,patient]开始,为列出2004年每位医生的收费总数,应当执行哪些OLAP操作? (d)为得到同样的结果,写一个SQL查询。假定数据存放的模式为 Fee(day,month,year,doctor,hospital,patient,count,charge) 16. 3种主要的数据仓库应用:信息处理、分析处理和数据挖掘的区别是什么?讨论OLAP挖掘的动机。 17.假定10维基本方体只包含3个基本单元:(1)(a1,d2,d3,d4,…,d9,d10),模糊集B=,求,,及。 19.“年老”集O与“年青”集Y的隶属函数图像如图(1)所示,试求出模糊集O与模糊集Y的交集、并集,并用隶属函数的形式表示其交、并集。 20.已知如下模糊关系,S=,其中=0.3,=0.5,求对其模糊关系施行如下运算的值: ,。若有,S=,求的值。 21.设有5个环境单元,每个环境的污染数据按空气、水分、土壤、作物排序如下:(5,5,3,2) , (2,3,4,5) , (5,5,3,2) , (1,5,3,1) , (2,4,5,1),请选择合适的聚类方法对其分析,并以其聚类方法得出相应分类结果,并说明选择此方法进行聚类的原因。 22、令论域U={,,,,},模糊集, 求和。 23、设身高的论域为U={140,150,160,170,180},单位为厘米,设体重的论域为{40,50,60,70,80},单位为千克,那么常规表示人

您可能关注的文档

文档评论(0)

pfenejiarz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档