- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘作业精选
作业作为平时成绩(占20%)的衡量标准:一共有24道题,希望大家认真做,不收打印版!
1.什么是数据挖掘?在你的回答中,针对以下问题:
(a)它又是一种广告宣传吗?
(b)它是一种从数据库、统计学和机器学习发展的技术的简单转换吗?
(c) 解释数据库技术发展如何导致数据挖掘。
(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。
2.数据仓库和数据库有何不同?有哪些相似之处?
3.简述以下高级数据库系统和应用:对象——关系数据库、空间数据库、文本数据库、多媒体数据库、流数据和万维网。
4.定义下列数据挖掘功能:特征化,区分、关联和相关分析、分类、预测、聚类和演变分析。
5.区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处。
6.解释为什么概念分层在数据挖掘中是有用的。
7.描述以下数据挖掘系统与数据库或数据仓库集成方法的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。你认为哪种方法最流行,为什么?
8.试描述关于数据挖掘方法和用户交互问题的三个数据挖掘挑战。
9.与挖掘少量数据相比,挖掘海量数据的主要挑战是什么?
10.数据的质量可以用精确性、完整性和一致性来评估。提出数据质量的两种其他尺度。
11.假设给定的数据集的值已经分组为区间。区间和对应的频率如下:
年龄 频率 年龄 频率
1~5 200 5~15 450
15~20 300 20~50 1500
50~80 700 80~110 44
计算数据的近似中位数值。
12.假定用于分析的数据包含属性age。数据元组的age值以递增序为:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,
52,70
(a)该数据的均值是什么?中位数是什么?
(b) 该数据的众数是什么?讨论数据的峰。
(c) 数据的中列数是什么?
(d)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)。
(e)给出数据的五数概括。
13. 假设12个销售价格记录组已经排序如下:
5,10,11,13,15,35,50,55,72,92,204,215
使用如下每种方法将它们划分为三个箱。
(a)等频划分
(b) 等宽划分
(c)聚类划分
14.简述比较以下概念,可以用例子解释你的观点。
(a)雪花形模式、事实星座形、星形网查询模型
(b) 数据清理、数据变换、刷新
(c) 企业数据仓库、数据集市、虚拟仓库
15.假定数据仓库包含三维:time,doctor和patient;和两个度量:count和charge;其中,charge是医生对病人一次诊治的收费。
(a)列举三种流行的数据仓库建模模式。
(b) 使用(a)列举的模式之一,画出上面的数据仓库模式图。
(c) 由基本方体[day ,doctor,patient]开始,为列出2004年每位医生的收费总数,应当执行哪些OLAP操作?
(d)为得到同样的结果,写一个SQL查询。假定数据存放的模式为
Fee(day,month,year,doctor,hospital,patient,count,charge)
16. 3种主要的数据仓库应用:信息处理、分析处理和数据挖掘的区别是什么?讨论OLAP挖掘的动机。
17.假定10维基本方体只包含3个基本单元:(1)(a1,d2,d3,d4,…,d9,d10),模糊集B=,求,,及。
19.“年老”集O与“年青”集Y的隶属函数图像如图(1)所示,试求出模糊集O与模糊集Y的交集、并集,并用隶属函数的形式表示其交、并集。
20.已知如下模糊关系,S=,其中=0.3,=0.5,求对其模糊关系施行如下运算的值:
,。若有,S=,求的值。
21.设有5个环境单元,每个环境的污染数据按空气、水分、土壤、作物排序如下:(5,5,3,2) , (2,3,4,5) , (5,5,3,2) ,
(1,5,3,1) , (2,4,5,1),请选择合适的聚类方法对其分析,并以其聚类方法得出相应分类结果,并说明选择此方法进行聚类的原因。
22、令论域U={,,,,},模糊集, 求和。
23、设身高的论域为U={140,150,160,170,180},单位为厘米,设体重的论域为{40,50,60,70,80},单位为千克,那么常规表示人
您可能关注的文档
- 数学:10.7《众数》课件(北京课改版七年级下)精选.ppt
- 数学:10.8《中位数》课件(北京课改版七年级下)精选.ppt
- 数学:16.1《分式》(第1课时)课件(人教新课标八年级下)精选.ppt
- 数学:15.8《第十五章复习》课件(北京课改版八年级下)精选.ppt
- 数学:11.2《分式的基本性质》课件1(北京课改版八年级上)精选.ppt
- 数学:19.1 比例线段 课件(北京课改版九年级上)精选.ppt
- 数学:2.2-第1课时《同类项》课件(人教版七年级上)精选.ppt
- 数学:2.4《第二章复习》课件(湘教版七年级下)精选.ppt
- 数学:10.2《数据的收集与整理》课件(北京课改版七年级下)精选.ppt
- 数学:2.6《第二章复习》课件(湘教版八年级下)精选.ppt
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
文档评论(0)