- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章
1.6
(1)数据特征化是目标类数据的一般特性或特征的汇总。
例如,在某商店花费1000元以上的顾客特征的汇总描述是:年龄在40—50岁、有工作和很好的信誉等级。
(2)数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,高平均分数的学生的一般特点,可与低平均分数的学生的一般特点进行比较。由此产生的可能是一个相当普遍的描述,如平均分高达75%的学生是大四的计算机科学专业的学生,而平均分低于65%的学生则不是。一个数据挖掘系统可能会发现规则(,“计算机科学”)=拥有(,”个人电脑“)[= 12%,cofidence = 98%],构建了一个模型(或函数),描述和区分数据类或概念而后者则建立了一个模型来预测一些丢失或不可用,而且往往数值,数据集的预测它们都是为预测工具:分类是用于预测的数据和预测对象的类标签通常用于预测缺失值的数值数据。这些数据的离群点,是不属于任何集群如果一个数据点的预测值有很大的不同给定值,然后给定值可考虑异常。
(2)z-score规范化(零均值规范化):将某组数据的值基于它的均值和标准差规范化,是其规范化后的均值为0方差为1。
,其中是均值,是标准差
(3)小数定标规范化:通过移动属性A的小数点位置进行规范化。
(a)min-max规范化
其中v是原始数据,min和max是原始数据的最小和最大值,new_max和new_min是要规范化到的区间的上下限
原始数据 200 300 400 600 1000 [0,1] 规范化 0 0.125 0.25 0.5 1 (b)z-score规范化
,其中是均值,是标准差
原始数据 200 300 400 600 1000 z-score -1.06 -0.7 -0.35 0.35 1.78
2.13
(1)逐步向前选择
(2)逐步向后删除
(3)向前选择和向后删除的结合
第三章
3.2 简略比较以下概念,可以用例子解释你的观点
(a)雪花形模式、事实星座形、星形网查询模型。
答:雪花形和事实星形模式都是变形的星形模式,都是由事实表和维表组成,雪花形模式的维表都是规范化的;而事实星座形的某几个事实表可能会共享一些维表;星形网查询模型是一个查询模型而不是模式模型,它是由中心点发出的涉嫌组成,其中每一条射线代表一个维的概念分层。
(b)数据清理、数据变换、刷新
答:数据清理是指检测数据中的错误,可能时订正它们;数据变换是将数据由遗产或宿主格式转换成数据仓库格式;刷新是指传播由数据源到数据仓库的更新。
3.4
(a)雪花形模式图如下:(见74页)
course维表 univ fact table student维表 area维表
course_id course_name department
area_id city province country
student_id student_name area_id major status university
student_id course_id semester_id Instructor_id count avg_grade
Semester维表
semester_id semester year Instructor维表
Instructor_id dept rank
(b)特殊的QLAP操作如下所示:(见79页)
1)在课程维表中,从course_id到department进行上卷操作;
2)在学生维表中,从student_id到university进行上卷操作;
3)根据以下标准进行切片和切块操作:department=”CS” and university=”Big University”;
4)在学生维表中,从university到student_id进行下钻操作。
(c)这个立方体将包含个长方体。(见课本88与89页)
第五章
5.1
(a)假设s是频繁项集,min_sup表示项集的最低支持度,D表示事务数据库。由于s是一个频繁项集,所以有
假设是s的一个非空子集,由于support_count()support_sup(s),故有
所以原题得证,即频繁项集的所有非空子集必须也是频繁的。
(b)由定义知,
令是s的任何一个非空
您可能关注的文档
最近下载
- 医疗保健服务转介工作制度.docx
- 2023年初中信息技术学业水平测试真题及答案.pdf
- 高考政治 专题35 求索真理的历程热点题型和提分秘籍(含解析) .doc
- 2024年部编版六年级上册语文第七单元作文指导课件《我的拿手好戏》.pptx VIP
- Arduino基础入门套件教程.pdf
- 2024年北师大版高考英语总复习第一部分考点梳理选择性必修第三册Unit 8Literature.docx VIP
- JCI(第七版)医院评审标准流程指南(1).docx VIP
- 统编版语文五年级上册第一单元复习课件.ppt
- 信息技术在钳工教学中的应用.docx VIP
- 银行自然人股东确权文件清单【模板】.docx
文档评论(0)