Python数据分析与应用 课件 第12、13章 Seaborn ; Sklearn.ppt

Python数据分析与应用 课件 第12、13章 Seaborn ; Sklearn.ppt

**********Sklearn数据集机器学习领域有句话:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。”数据作为机器学习的最关键要素,决定着模型选择、参数的设定和调优。Sklearn的数据集是datasets模块,导入数据集代码如下所示: fromsklearnimportdatasets sklearn提供三种数据集,分别是小数据集、大数据集和生成数据集。Sklearn小数据集Sklearn大数据集Sklearn生成数据集划分数据集根据数据集的特点,有留出法、交叉验证法和自助法等,具体如下所示:数据集较小且可以有效划分训练集/测试集的时候,采用留出法。数据集较小且难以有效划分训练集/测试集的时候,采用自助法。数据集数量充足时,通常采用留出法或者k折交叉验证法。K近邻算法KNN具有如下个步骤:步骤1:?算距离。计算待分类样本Xu与已分类样本点的距离,计算距离有等方法。步骤2:?找邻居。圈定与待分类样本距离最近的3个已分类样本,作为待分类样本的近邻。步骤3:?做分类。根据3个近邻中的多数样本所属的类别来决定待分类样本,将Xu的类别预测为ω1。K近邻算法Sklearn提供了KneighborsClassifier解决分类问题KNeighborsClass

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档