- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘课后答案数据挖掘课后答案
第一章
1.6
(1)数据特征化是目标类数据的一般特性或特征的汇总。
例如,在某商店花费1000元以上的顾客特征的汇总描述是:年龄在40—50岁、有工作和很好的信誉等级。
(2)数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,高平均分数的学生的一般特点,可与低平均分数的学生的一般特点进行比较。由此产生的可能是一个相当普遍的描述,如平均分高达75%的学生是大四的计算机科学专业的学生,而平均分低于65%的学生则不是。一个数据挖掘系统可能会发现规则(,“计算机科学”)=拥有(,”个人电脑“)[= 12%,cofidence = 98%],构建了一个模型(或函数),描述和区分数据类或概念而后者则建立了一个模型来预测一些丢失或不可用,而且往往数值,数据集的预测它们都是为预测工具:分类是用于预测的数据和预测对象的类标签通常用于预测缺失值的数值数据。这些数据的离群点,是不属于任何集群如果一个数据点的预测值有很大的不同给定值,然后给定值可考虑异常。
(2)z-score规范化(零均值规范化):将某组数据的值基于它的均值和标准差规范化,是其规范化后的均值为0方差为1。
,其中是均值,是标准差
(3)小数定标规范化:通过移动属性A的小数点位置进行规范化。
(a)min-max规范化
其中v是原始数据,min和max是原始数据的最小和最大值,new_max和new_min是要规范化到的区间的上下限
原始数据 200 300 400 600 1000 [0,1] 规范化 0 0.125 0.25 0.5 1 (b)z-score规范化
,其中是均值,是标准差
原始数据 200 300 400 600 1000 z-score -1.06 -0.7 -0.35 0.35 1.78
2.13
(1)逐步向前选择
(2)逐步向后删除
(3)向前选择和向后删除的结合
第三章
3.2 简略比较以下概念,可以用例子解释你的观点
(a)雪花形模式、事实星座形、星形网查询模型。
答:雪花形和事实星形模式都是变形的星形模式,都是由事实表和维表组成,雪花形模式的维表都是规范化的;而事实星座形的某几个事实表可能会共享一些维表;星形网查询模型是一个查询模型而不是模式模型,它是由中心点发出的涉嫌组成,其中每一条射线代表一个维的概念分层。
(b)数据清理、数据变换、刷新
答:数据清理是指检测数据中的错误,可能时订正它们;数据变换是将数据由遗产或宿主格式转换成数据仓库格式;刷新是指传播由数据源到数据仓库的更新。
3.4
(a)雪花形模式图如下:(见74页)
course维表 univ fact table student维表 area维表
course_id course_name department
area_id city province country
student_id student_name area_id major status university
student_id course_id semester_id Instructor_id count avg_grade
Semester维表
semester_id semester year Instructor维表
Instructor_id dept rank
(b)特殊的QLAP操作如下所示:(见79页)
1)在课程维表中,从course_id到department进行上卷操作;
2)在学生维表中,从student_id到university进行上卷操作;
3)根据以下标准进行切片和切块操作:department=”CS” and university=”Big University”;
4)在学生维表中,从university到student_id进行下钻操作。
(c)这个立方体将包含个长方体。(见课本88与89页)
第五章
5.1
(a)假设s是频繁项集,min_sup表示项集的最低支持度,D表示事务数据库。由于s是一个频繁项集,所以有
假设是s的一个非空子集,由于support_count()support_sup
您可能关注的文档
- 1、苏教版六年级下册第单元(3课时)1、苏教版六年级下册第一单元(3课时).doc
- 1初步业务活动工作底稿初步业务活动工作底稿.doc
- 数据库原理及应用复习指南new数据库原理及应用复习指南new.doc
- 1Z304013 建设程施工合同的法定形式和内容1Z304013 建设工程施工合同的法定形式和内容.doc
- 数据库基础与应用实践环节数据库基础与应用实践环节.doc
- 数据库基础与ACCESS期末试题数据库基础与ACCESS期末试题.doc
- 1学校中长期发展规划1校中长期发展规划.doc
- 数据库基础与应用Access 2010 习题答案(汇总)数据库基础与应用Access 2010 习题答案(汇总).doc
- 1各类岗位薪级工资套改策和计算方法1各类岗位薪级工资套改政策和计算方法.doc
- 1机房建设方案1机房建方案.doc
- 数控技术自考本科考试科目数控技术自考本科考试科目.doc
- 2006年八年级上册语期中测试卷2006年八年级上册语文期中测试卷.doc
- 整体机房建设项目方案书整体机房建设项目方案书.doc
- 2006年文科高考数学题中的概率问题浅析2006年文科高考数学试题中的概率问题浅析.doc
- 2006第十二届noi提高组初赛试题2006第十二届noip提高组初赛试题.doc
- 整合SI资源_实现ICT创新整合SI资源_实现ICT创新.doc
- 整合资源 服务整合资源 服务.doc
- 数控雕刻机开题报告-数控雕刻机开题报告-.doc
- 整理与复习 (百分数)整理与复习 (百分数).doc
- 2007-2012年nip初赛提高组基础题2007-2012年noip初赛提高组基础题.doc
最近下载
- 型钢悬挑卸料平台监理实施细则.doc VIP
- 2025版最新建设工程强制性条文汇编.pdf VIP
- (高清版)DG∕TJ 08-2105-2022 行道树栽植与养护技术标准.pdf VIP
- 无人机组装与调试:多旋翼无人机飞控系统组装调试PPT教学课件.pptx VIP
- 检验检测机构资质认定质量手册和程序文件(质量记录表格汇编).doc VIP
- 建筑机电安装培训.pptx VIP
- 初三物理课件第十六章 3节 电阻课件初三物理课件第十六章 第3节 电阻课件.ppt VIP
- 低空经济产业园招商引资与项目管理.docx VIP
- 燃气经营安全重大隐患判定标准课件.pptx VIP
- 2025年学校基孔肯雅热防控工作预案(精选模板).docx
文档评论(0)