Python数据分析与应用课件第13章 Sklearn.ppt

下载文档

0
0
约4.04千字
约 28页
2024-12-14 发布于山东
举报
版权申诉
保障服务

Python数据分析与应用课件第13章 Sklearn.ppt

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第12章Sklearn《Python数据分析与应用》SklearnScikit-learn(sklearn)是机器学习中常用的第三方模块，对常用的机器学习方法进行了封装，具有分类、回归、聚类、降维、模型选择、预处理六大模块Sklearn（1）分类：识别某个对象属于哪个类别，常用的算法有：SVM（支持向量机）、KNN（最近邻）、randomforest（随机森林）。（2）回归：预测与对象相关联的连续值属性，常见的算法有：SVR（支持向量机）、ridgeregression（岭回归（3）聚类：将相似对象自动分组，常用的算法有：spectralclustering、K-means。Sklearn（4）降维：减少要考虑的随机变量的数量，常见的算法有：PCA（主成分分析）、featureselection（特征选择）。（5）模型选择：用于比较、验证、选择参数和模型，常用的模块有：gridsearch（网格搜索）、crossvalidation（交叉验证）、metrics（度量）。（6）预处理：包括数据清洗和特征提取，常用的模块有preprocessing（数据预处理）和featureextraction（特征提取）。无监督学习算法算法说明cluster 聚类Decomposition因子分解Mixture高斯混合模型neural_network无监督的神经网络Covariance协方差估计有监督学习算法说明tree决策树svm支持向量机neighbors近邻算法linear_model广义线性模型neural_network神经网络kernel_ridge岭回归naive_bayes?朴素贝叶斯数据转换模块说明feature_extraction特征提取feature_selection特征选择preprocessing预处理评价指标术语Sklearn函数混淆矩阵confusion_matrix准确率accuracy_score召回率recall_scoref1_scoref1_scoreROC曲线roc_curveAUC面积roc_auc_score分类评估报告classification_report安装SklearnSklearn数据集机器学习领域有句话：“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。”数据作为机器学习的最关键要素，决定着模型选择、参数的设定和调优。Sklearn的数据集是datasets模块，导入数据集代码如下所示： fromsklearnimportdatasets sklearn提供三种数据集，分别是小数据集、大数据集和生成数据集。Sklearn小数据集Sklearn大数据集Sklearn生成数据集划分数据集根据数据集的特点，有留出法、交叉验证法和自助法等，具体如下所示：数据集较小且可以有效划分训练集/测试集的时候，采用留出法。数据集较小且难以有效划分训练集/测试集的时候，采用自助法。数据集数量充足时，通常采用留出法或者k折交叉验证法。K近邻算法KNN具有如下个步骤：步骤1：?算距离。计算待分类样本Xu与已分类样本点的距离，计算距离有等方法。步骤2：?找邻居。圈定与待分类样本距离最近的3个已分类样本，作为待分类样本的近邻。步骤3：?做分类。根据3个近邻中的多数样本所属的类别来决定待分类样本，将Xu的类别预测为ω1。K近邻算法Sklearn提供了KneighborsClassifier解决分类问题KNeighborsClassifier(n_neighbors,weights,algorithm,leaf_size,p)决策树通过一系列规则对数据进行分类，将在不同条件下得到不同的结果的决策过程绘制成图形，很像一棵倒立的树。这种从数据产生决策树的机器学习技术叫做决策树（DecisionTrees，缩写DT）。决策树类似于流程图的树结构，采用IF……THEN的思路，每个叶结点对应一个分类，非叶结点对应着某个属性上的划分，根据样本在该属性上的不同取值将其划分为若干子集。决策树Sklearn提供DecisionTreeClassifier用于分类变量，具体语法如下所示DecisionTreeClassifier(criterio,splitter,max_depth,min_samples_split)参数解释如下所示：criterion：内置标准为gini（基尼系数）

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Python数据分析与应用课件第13章 Sklearn.ppt