2013-2014学年上学期期末试题.docVIP

下载本文档

35
0
约小于1千字
约 5页
2016-12-25 发布于重庆
举报

2013-2014学年上学期期末试题.doc

2013-2014学年上学期期末试题 - 数据挖掘（硕士研究生） 1、（10分）分类和聚类有什么相同点和不同点？不带类标的数据可以为分类器的学习提供什么信息？分类是事先定义好类别，类别数不变。分类器需要由人工标注的分类训练语料训练得到，属于有指导学习范畴。聚类则没有事先预定的类别，类别数不确定。聚类不需要人工标注和预先训练分类器，类别在聚类过程中自动生成。分类适合类别或分类体系已经确定的场合；聚类则适合不存在分类体系、类别数不确定的场合。分类的目的是学会一个分类函数或分类模型(分类器)，该模型能把数据库中的数据项映射到给定类别中的某一个类中。要构造分类器，需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成，每个元组是一个由有关字段(又称属性或特征值)组成的特征向量，此外，训练样本还有一个类别标记。聚类是将本身没有类别的样本聚集成不同的组，这样的一组数据对象的集合叫做簇，并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似，而不同簇的样本应该足够不相似。与分类规则不同，进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系。常见的聚类算法包括：K-均值聚类算法、K-中心点聚类算法、CLARANS、 BIRCH、CLIQUE、DBSCAN等。 2、（10分

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2013-2014学年上学期期末试题.docVIP