机器学习深度学习面试问题汇总 .pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

机器学习深度学习面试问题汇总

导读

在面试之前,你会觉得自己什么都懂,但是真的开始面试了,你发

现你自己什么都不懂!

可怕的机器学习面试。在面试之前,你会觉得自己什么都懂,但是真的开始面试

了,你发现你自己什么都不懂!

在过去的几个月里,我面试了很多公司的初级职位,涉及数据科学和机器学习。

在我攻读机器学习和计算机视觉硕士学位的最后几个月里,我都是在学校里学

习,大部分之前的经验都是研究和学术方面的,但是我有8个月的时间处于早期

创业阶段(与ML无关)。我在创业阶段的这些角色包括数据科学、通用的机器学

习和自然语言处理或计算机视觉相关的内容。我面试过亚马逊、特斯拉、三星、

优步、华为等大公司,也面试过很多初创公司,从初创阶段到资金雄厚的阶段的

公司都有。

今天我将和大家分享我被问到的所有面试问题以及如何解决这些问题。许多问题

都是很常见的和预想的理论问题,但也有许多问题是很有创造性的。我将简单地

列出最常见的一些,因为网上有很多关于它们的资源,并深入探讨一些不太常见

和棘手的。我希望通过阅读这篇文章,你能在机器学习面试中取得好成绩,找到

你梦想的工作!

就让我们开始吧:

偏差和方差之间的权衡是什么?

什么是梯度下降?

解释过拟合和欠拟合,以及如何与之对抗?

你如何对抗维度灾难?

什么是正则化,我们为什么要使用它,并给出一些常见方法的例子?

解释主成分分析(PCA)?

为什么在神经网络中ReLU比Sigmoid更好更常用?

什么是数据归一化?我们为什么需要它?

我觉得这个问题很重要。数据归一化是一个非常重要的预处理步骤,用于对数值

进行缩放以适应特定的范围,以确保在反向传播过程中更好地收敛。一般来说,

这可以归结为减去每个数据点的均值,再除以其标准差。如果我们不这样做,那

么一些特征(那些大幅值的特征)将在损失函数中得到更多的权重(如果一个高幅

值的特征变化了1%,那么这个变化是相当大的,但是对于较小的特征,它是相

当小的)。数据归一化使得所有特征的权重相等。

解释一下降维,在哪里使用,它的好处?

降维是通过得到一组主要的变量,这些变量基本上就是重要的特征,来减少需要

考虑的特征变量数量的过程。特性的重要性取决于特性变量对数据的信息表示的

贡献有多大,取决于你决定使用哪种技术。决定使用哪种技术取决于反复试验和

偏好。通常从线性技术开始,当结果表明不合适时,再转向非线性技术。数据集

降维的好处可能是:(1)减少所需存储空间(2)加速计算(例如在机器学习算

法),维度少意味着更少的计算,小维度可以允许使用那些不适合大维度的算法

(3)删除冗余特性,例如同时使用平方米和平方英里来存储面积是没有意义的

(可能数据采集是有缺陷的)(4)把数据的维度降低成2d或3d,这样可以可

视化,可以观察到一些模式,给我们一些直观的启发(5)过多的特征或过于复

杂的模型会导致过拟合。

如何处理数据集中丢失或损坏的数据?

你可以在数据集中找到丢失/损坏的数据,然后删除这些行或列,或者用另一个

值替换它们。在pandas中,有两个非常有用的方法:isnull()和dropna(),它们

将帮助你找到缺少或损坏数据的数据列,并删除这些值。如果希望用占位符值(例

如0)填充无效值,可以使用fillna()方法。

解释一种聚类算法?

我写了一篇关于数据科学家需要知道的5种聚类算法的热门文章,用一些很好的

可视化方法来详细解释所有这些算法。

如何进行探索性数据分析(EDA)?

EDA的目标是在应用预测模型之前从数据中得到一些理解,获得一些信息。基

本上,你希望以一种从粗到细的方式进行EDA。

我们首先得到一些高层次的理解。看看一些不平衡的类,看看每个类的均值和方

差。查看前几行,看看它是关于什么的。运行pandas的df.info()来查看哪些特

性是连续的、类别的、它们的类型(int、float、string)。

接下来,删除在分析和预测中没有用的和不必要的列。它们可以是看起来无用的

列,可以是许多行具有相同的值(没有给我们多少有用的信息),或者有很多缺

失值。我们还可以用该列中最常见的值或中值来填充缺失的值。

现在我们可以开始做一些基本的可视化。从高层次的东西开始。做一些条形图,

用在分类特征上和只有少量组的特征上。看看最通“用的特征”,创建一些关于这

些特性的独立的可视化图,尝试获得一些基本的理解。

现在我们可以开始变得更具体一些。在两个或三个特征之间创建可视化图。特征

是如何相互关联的?你还可以

文档评论(0)

182****5189 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档