Python数据分析与应用 课件 第13章 Sklearn.ppt

Python数据分析与应用 课件 第13章 Sklearn.ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第12章Sklearn《Python数据分析与应用》SklearnScikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,具有分类、回归、聚类、降维、模型选择、预处理六大模块Sklearn(1)分类:识别某个对象属于哪个类别,常用的算法有:SVM(支持向量机)、KNN(最近邻)、randomforest(随机森林)。(2)回归:预测与对象相关联的连续值属性,常见的算法有:SVR(支持向量机)、ridgeregression(岭回归(3)聚类:将相似对象自动分组,常用的算法有:spectralclustering、K-means。Sklearn(4)降维:减少要考虑的随机变量的数量,常见的算法有:PCA(主成分分析)、featureselection(特征选择)。(5)模型选择:用于比较、验证、选择参数和模型,常用的模块有:gridsearch(网格搜索)、crossvalidation(交叉验证)、metrics(度量)。(6)预处理:包括数据清洗和特征提取,常用的模块有preprocessing(数据预处理)和featureextraction(特征提取)。无监督学习算法算法 说明cluster 聚类Decomposition因子分解Mixture高斯混合模型neural_network无监督的神经网络Covariance协方差估计有监督学习算法 说明tree决策树svm支持向量机neighbors近邻算法linear_model广义线性模型neural_network神经网络kernel_ridge岭回归naive_bayes?朴素贝叶斯数据转换模块 说明feature_extraction特征提取feature_selection特征选择preprocessing预处理评价指标术语Sklearn函数混淆矩阵confusion_matrix准确率accuracy_score召回率recall_scoref1_scoref1_scoreROC曲线roc_curveAUC面积roc_auc_score分类评估报告classification_report安装SklearnSklearn数据集机器学习领域有句话:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。”数据作为机器学习的最关键要素,决定着模型选择、参数的设定和调优。Sklearn的数据集是datasets模块,导入数据集代码如下所示: fromsklearnimportdatasets sklearn提供三种数据集,分别是小数据集、大数据集和生成数据集。Sklearn小数据集Sklearn大数据集Sklearn生成数据集划分数据集根据数据集的特点,有留出法、交叉验证法和自助法等,具体如下所示:数据集较小且可以有效划分训练集/测试集的时候,采用留出法。数据集较小且难以有效划分训练集/测试集的时候,采用自助法。数据集数量充足时,通常采用留出法或者k折交叉验证法。K近邻算法KNN具有如下个步骤:步骤1:?算距离。计算待分类样本Xu与已分类样本点的距离,计算距离有等方法。步骤2:?找邻居。圈定与待分类样本距离最近的3个已分类样本,作为待分类样本的近邻。步骤3:?做分类。根据3个近邻中的多数样本所属的类别来决定待分类样本,将Xu的类别预测为ω1。K近邻算法Sklearn提供了KneighborsClassifier解决分类问题KNeighborsClassifier(n_neighbors,weights,algorithm,leaf_size,p)决策树通过一系列规则对数据进行分类,将在不同条件下得到不同的结果的决策过程绘制成图形,很像一棵倒立的树。这种从数据产生决策树的机器学习技术叫做决策树(DecisionTrees,缩写DT)。决策树类似于流程图的树结构,采用IF……THEN的思路,每个叶结点对应一个分类,非叶结点对应着某个属性上的划分,根据样本在该属性上的不同取值将其划分为若干子集。决策树Sklearn提供DecisionTreeClassifier用于分类变量,具体语法如下所示DecisionTreeClassifier(criterio,splitter,max_depth,min_samples_split)参数解释如下所示:criterion:内置标准为gini(基尼系数)

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档