- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章 数据挖掘的概论
**1.1(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
当其被看作知识发现过程时,其基本步骤主要有:
(1).数据清理:清楚噪声和删除不一致数据;
(2).数据集成:多种数据源可以组合在一起;
(3).数据选择:从数据库中提取与分析任务相关的数据;
(4).数据变换:通过汇总或者聚集操作,把数据变换和统一成适合挖掘的形式;
(5).数据挖掘:使用智能方法或者数据挖掘算法提取数据模式;
(6).模式评估:根据某种兴趣度量,识别代表知识的真正有趣的模式。(7).知识表示:使用可视化和知识表示技
术,将已经挖掘到的有用知识给用户呈现出来。
1.2 数据仓库与数据库有什么不同?它们有哪些相似之处?**
数据仓库是多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据
清理、数据集成和联机分析处理(OLAP)。数据库系统也称数据库管理系统,由一组内部相关的数据(称作数
据库)和一组管理和存取数据的软件程序组成。它们的相似之处:都是通过某个数据库软件,基于某种数据
模型来组织、管理数据。
1.5 解释区分和分类、特征化和聚类、分类和回归之间的区别和相似之处。**
区分和分类:数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较 ;而分
类则是找出描述和区分数据类或概念的模型,以便能够使用模型对未知类标号的样例进行预测 。
特征化和聚类:数据特征化是 目标类数据的一般特性或特征的汇总,即在进行数据特征化时很清楚特征化的
这些数据的特点是什么;而聚类则只是分析数据对象,按照“最大化类内相似度、最小化类间相似度”的原则进
行聚类或分组 。
分类在第一点时已经说过; 回归主要是建立连续值的函数模型,回归主要用来预测缺失的或难以获得的数值
数据值,而不是离散的类标号,同时回归也包含基于可用数据的分布趋势识别。
第二章 认识数据
2.2 假设所分析的的数据包括属性age,它在数据元组中的值(以递增序)为
13,15,16,16,19,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.
1. 该数的均值是多少?中位数是什么? 该数的均值为29.963,中位数是25。
2. 该数据的众数是什么?讨论数据的模态(即二模、三模等)。 该数据的众数为25和35,即该数据是一个双峰
的分布,即二模。
3. 该数据的中列数是多少? 该数据的中列数为(70+13)/2=41.5。
4. 你能粗略的找出该数据的第一个四分位数(Q1Q1)和第三个四分位数(Q3Q3)吗? 第一个四分位数为:⌈27/4⌉=7
处,Q1=20,第三个四分位数为:7∗3=21处,Q3=35。
5. 给出该数据的五数概括。 根据以上,得到了最小观测值、Q1、Q2、Q3,最大观测值,所以画出其盒图如下:
6. 分位数-分位数图与分位数图有什么区别? 分位数图(quantile plot)是一种观察单变量数据分布的简单有效方
法。首先它显示给定属性的所有数据的分布情况;其次,它绘出了分位数信息(即对于某序数或数值属性X,
设xi(i=1,...,N)是按照递增排序的数据,使得x1是最小的观测值,xN是最大的观测值)。 统一属性不同取值的分
布趋势 分位数-分位数图(q-q图)则是反映了同一 个属性的不同样本的数据分布情况 ,使得用户可以很方便的
比较这两个样本之间的区别或者联系(看距离0。
散点图:则是说明是属性间的相关程度**(正负相关**)
如下图所示:
2.3 给定的数据集已经分组到区间,计算该数据的近似中位数。**
1. 解题思路:由于该题目并没有说明某一个年龄对应的人数有多少个,所以一种解题思路就是取每一个年龄区
间的中位数乘以其人数,然后再除以总的人数从而计算所有数据的中位数。
2.5 简要概述如何计算被如下属性描述的对象的相异性:
2.6 给定两个被元组(22,1,42,10)和(20,0,36,8)表示的对象。
1.
第三章 数据预处理
3.3 在习题2.2中,属性age包括如下值13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25,25, 25
您可能关注的文档
- 16第十六章 爆炸分析.pdf
- MySQL 数据库系统设计实现与管理第六版课后习题答案Part 1 Review Questions and Exercises.doc
- MySQL 数据库系统设计实现与管理第六版课后习题答案Part 2 Review Questions and Exercises.doc
- MySQL 数据库系统设计实现与管理第六版课后习题答案Part 3 Review Questions and Exercises.doc
- MySQL 数据库系统设计实现与管理第六版课后习题答案Part 4 Review Questions and Exercises.doc
- MySQL 数据库系统设计实现与管理第六版课后习题答案Part 5 Review Questions and Exercises.doc
- MySQL 数据库系统设计实现与管理第六版课后习题答案Part 6 Review Questions and Exercises.doc
- MySQL 数据库系统设计实现与管理第六版课后习题答案Part 7 Review Questions and Exercises.doc
- MySQL 数据库系统设计实现与管理第六版课后习题答案Part 8 Review Questions and Exercises.doc
- MySQL 数据库系统设计实现与管理第六版课后习题答案Part 9 Review Questions and Exercises.doc
最近下载
- 高校企业产学研合作协议范本.doc VIP
- 2024-2025学年河南省百师联盟高二年级上册10月联考数学试题(含答案).pdf VIP
- 企业与高校产学研合作协议(产学研合作协议范本).docx VIP
- 蟋蟀的住宅-课堂演示课件.ppt VIP
- 《环境化学导论》课件.ppt VIP
- 商务统计学第八章习题chap08-TIF-BSAFC5.pdf
- A级景区安全风险辨识评估标准清单.docx VIP
- 南方GPS静态测量及数据处理(实例).pdf VIP
- 新22J07 室外工程-标准图集.docx VIP
- DB32/T 3545.7-2024血液净化治疗技术管理 第7部分:血液透析用水卫生检测规范.pdf VIP
文档评论(0)