机器学习基础考试复习.pdfVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

机机器器学学习习基基础础考考试试复复习习

机机器器学学习习基基础础考考试试复复习习

只适⽤于媒⼯duhui的机器学习课

提取码:jf10

提取码:2g76

author:梁君牧

简简答答题题::

1.SVM⽅法中⽀平⾯上把两类类别分别分开来的超平⾯的向量点称作⽀撑向量

2.K-medoids算法不通过计算簇中所有样本的平均值得到簇的中⼼,⽽是通过选取原有样本中的样本点作为代表对象代表这个簇。

3.函数的梯度⽅向是函数变化最快的⽅向

4.信息增益表⽰得知特征X信息⽽使得类Y的信息不确定性减少的程度。

.CART决策树⽅法对分类树⽤基尼指数最⼩化准则进⾏特征选择,⽣成⼆叉树。

6.回归和分类都是有监督学习问题。

7.C4.决策树⽣成⽅法中,⽤信息增益⽐来选择特征。

8.朴素贝叶斯分类模型假设问题的特征之间都是互不相关的。

9.Kmeans算法通过计算簇中所有样本的平均值得到簇的中⼼。

10.⼈⼯神经⽹络是基于⼈类神经⽹络的基本原理,在理解和抽象⼈脑和外界刺激响应机制的基础上,以⽹络拓扑知识为理论基础,模拟⼈脑神经系统实现复杂信息处理机制的

数学模型,具有⾃学能⼒、联想存储能⼒以及⾼速寻优能⼒。

11.决策树的关键,即在当前状态下选择哪个特征作为分类依据。

12.⾸先构造完整的决策树,允许树过度拟合训练数据,然后对那些置信度不够的结点⼦树⽤叶⼦结点来代替,该叶⼦的类标号⽤该结点⼦树中最频繁的类标记,该操作称为后

剪枝。

问问答答题题

1.监督学习、⽆监督学习的概念

监督学习:对具有标记的训练样本进⾏学习来建⽴从样本特征到标记的映射。

⽆监督学习:对没有标记的训练样本进⾏学习,发掘和揭⽰数据集本⾝潜在的结构与规律。

2.聚类的⽅法有哪些?

1.原型聚类

K-Means聚类

LVQ聚类(学习向量量化)

⾼斯混合聚类

2.密度聚类

DBSCAN聚类

OPTICS聚类

DENCLUE聚类

3.层次聚类

BIRCH聚类

CURE聚类

4.基于⽹格的聚类

.基于模型的聚类

基于概率模型的聚类

基于神经⽹络模型的聚类

3.聚类分析⽅法分类?

1.基于划分的⽅法;

2.基于密度的⽅法;

3.基于层次的⽅法;

4.基于⽹络的⽅法;

.基于模型的⽅法;

4.**k近邻算法的分类决策规则?**

K近邻算法的分类决策规则是多数表决规则,即由输⼊实例的kk个近邻的训练实例中的多数类决定输⼊实例的类别。

.K-Means的主要优缺点及针对缺点的优化⽅案(可能出简答题)

优点:

1.算法简单、快速。

2.对处理⼤数据集,该算法是相对可伸缩的和⾼效率的。

3.算法尝试找出使平⽅误差函数值最⼩的k个划分。

缺点:

1.K-means聚类算法只有在簇的平均值被定义的情况下才能使⽤。

2.要求⽤户必须事先给出要⽣成的簇的数⽬k。

3.对初值敏感,不同的起点结果不同,可能导致算法陷⼊局部最优。(优化⽅案:K-Means++算法——初始的聚类中⼼之间的相互距离要尽可能的远。)

4.不适合于发现⾮凸⾯形状的簇,或者⼤⼩差别很⼤的簇。(优化⽅案:肘部算法)

.对于噪声和孤⽴点数据敏感。

6.交叉校验(可能出简答题)

什么是交叉验证法?

7.交叉校验的基本思想就是将原始数据进⾏分组,⼀部分做为训练集来训练模型,另⼀部分做为测试集来评价模型。

为什么⽤交叉验证法?

1.交叉验证⽤于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在⼀定程度上减⼩过拟合。

2.还可以从有限的数据中获取尽可能多的有

文档评论(0)

mmhaijing + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档