KNN面试题及详细答案.docxVIP

KNN面试题及详细答案.docx

KNN面试题及详细答案

一、基础概念题（入门必问）

1.请用通俗的话解释一下什么是KNN算法？它的核心思想是什么？

答案：通俗来说，KNN就是“近朱者赤，近墨者黑”——对于一个未知类别的样本，我们看它周围最近的K个已知类别的样本，这K个样本里哪种类别占比最多，就把这个未知样本归为那种类别。

核心思想：不依赖于数据的分布，也不提前训练模型（属于惰性学习），完全靠“邻居”的类别来判断当前样本的类别，核心是“距离越近，相似度越高”。

补充：和传统的有监督算法（比如逻辑回归、决策树）不同，KNN没有训练过程，只有预测过程，预测时才会计算未知样本与所有已知样本的距离，效率相对较低。

2.KNN算法中的“K”指的是什么？K的取值对算法结果有什么影响？

答案：K指的是“最近邻的数量”，也就是预测时，我们选取的、与未知样本距离最近的已知样本的个数（必须是正整数）。

K的取值影响：

1.K值太小（比如K=1）：模型过于敏感，容易受到异常值的影响，泛化能力差，会导致过拟合。比如一个异常样本和未知样本距离最近，就会误判未知样本的类别。

2.K值太大（比如K等于所有样本数）：模型会过于“模糊”，失去局部特征，导致欠拟合。比如无论未知样本是什么，都被归为样本中占比最多的类别，无法区分不同样本的差异。

3.最优K值：通常取奇数（避免平局，比如K=2时，两个邻居类别不同，无法判断），一般通过交

更多 >