题库百度数据结构算法面试题型介绍及解析--第8期.docVIP

下载本文档

1
0
约2.19千字
约 6页
2020-10-24 发布于湖北
举报
版权申诉

题库百度数据结构算法面试题型介绍及解析--第8期.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1.模型评估常用方法？一般情况来说，单一评分标准无法完全评估一个机器学习模型。只用 good 和 bad 偏离真实场景去评估某个模型，都是一种欠妥的评估方式。下面介绍常用的分类模型和回归模型评估方法。分类模型常用评估方法：回归模型常用评估方法： 2.误差、偏差和方差有什么区别和联系？在机器学习中，Bias (偏差)，Error (误差)，和 Variance (方差) 存在以下区别和联系：对于 Error ：误差（error）：一般地，我们把学习器的实际预测输出与样本的真是输出之间的差异称为 “误差”。 Error = Bias + Variance + Noise，Error 反映的是整个模型的准确度。对于 Noise: 噪声：描述了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。对于 Bias： Bias 衡量模型拟合训练数据的能力（训练数据不一定是整个 training dataset，而是只用于训练它的那一部分数据，例如：mini-batch），Bias 反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度。 Bias 越小，拟合能力越高（可能产生 overfitting）；反之，拟合能力越低（可能产生 underfitting）。偏差越大，越偏离真实数据，如下图第二行所示。对于 Variance：方差公式：$S_{N}^{2}=\frac {1}{N}\sum_{i=1}^{N}(x_{i}-\bar {x})^{2}$ Variance 描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，模型的稳定程度越差。 Variance 反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。 Variance 越小，模型的泛化的能力越高；反之，模型的泛化的能力越低。如果模型在训练集上拟合效果比较优秀，但是在测试集上拟合效果比较差劣，则方差较大，说明模型的稳定程度较差，出现这种现象可能是由于模型对训练集过拟合造成的。 3.什么是经验误差？泛化误差？学习器在训练集上的误差成为 “训练误差” 或 “经验误差”。在新样本上的误差称为 “泛化误差”。以前在机器学习中泛化误差是用来衡量一个学习机器推广未知数据的能力，即根据从样本数据中学习到的规则能够应用到新数据的能力。根据大数定律，经验误差会收敛于泛化误差，两者（在一定容忍下）相近是由 hoeffding 不等式作为理论保证的，两者相差过大说明模型的欠拟合或者过拟合，而学习的一致收敛性说的正是这一特性：当训练集足够大，两者的结果就会足够相近，这样我们通过样本的 “管中窥豹” 的目的才能达到，最终才能获得一个目标假设。可参考西瓜书：2.1，12.2，12.3 4.简单介绍机器学习算法中过拟合与欠拟合？机器学习中的过拟合过拟合指的是 referstoa 模型对于训练数据拟合程度过当的情况。当某个模型过度的学习训练数据中的细节和噪音，以至于模型在新的数据上表现很差，我们称过拟合发生了。这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。而问题就在于这些概念不适用于新的数据，从而导致模型泛化性能的变差。过拟合更可能在无参数非线性模型中发生，因为学习目标函数的过程是易变的具有弹性的。同样的，许多的无参数器学习算法也包括限制约束模型学习概念多少的参数或者技巧。例如，决策树就是一种无参数机器学习算法，非常有弹性并且容易受过拟合训练数据的影响。这种问题可以通过对学习过后的树进行剪枝来解决，这种方法就是为了移除一些其学习到的细节。机器学习中的欠拟合欠拟合指的是模型在训练和预测时表现都不好的情况。一个欠拟合的机器学习模型不是一个良好的模型并且由于在训练数据上表现不好这是显然的。欠拟合通常不被讨论，因为给定一个评估模型表现的指标的情况下，欠拟合很容易被发现。矫正方法是继续学习并且试着更换机器学习算法。虽然如此，欠拟合与过拟合形成了鲜明的对照。 5.如何解决过拟合与欠拟合？如何解决欠拟合：添加其他特征项。组合、泛化、相关性、上下文特征、平台特征等特征是特征添加的重要手段，有时候特征项不够会导致模型欠拟合。添加多项式特征。例如将线性模型添加二次项或三次项使模型泛化能力更强。例如，FM（Factorization Machine）模型、FFM（Field-aware Factorization Machine）模型，其实就是线性模型，增加了二阶多项式，保证了模型一定的拟合程度。可以增加模型的复杂程度。减小正则化系数。正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，则需要减少正则化参数。如何解决过拟合：重新清洗数据，数据不纯会导致过拟合，