- 0
- 0
- 约4.25千字
- 约 36页
- 2026-03-13 发布于广西
- 举报
scikit-learn
构建模型
课前回顾1、标准化数据2、转换数据数据标准化目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等的影响。数据库内的数据并不等同数值或者说数字,也包括类别和描述数据的数据。当我们对这些数据采用算法模型进行分析时,某些算法模型并不能支持对类别数据的分析,此时,我们需要转换数据。
情境引入当我们拥有了大量的数据,对这些数据进行了预处理,筛选、清洗,那最终这些数据要用来做什么呢?人工智能为我们指明了一个颇具潜力的道路——机器学习。
循序善诱机器学习是一门多领域交叉学科,涉及概率论、统计学等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
循序善诱实际应用机器学习时,scikit-learn库是一个很好的起点。针对于Python语言开发的scikit-learn,允许开发者们轻易地将机器学习集成到自己的项目中。
新知教授2、聚类模型1、处理数据5、课堂总结3、分类模型4、回归模型
处理数据
新知教授scikit-learn库的datasets模块集成了部分数据分析的经典数据集,可以使用这些数据集进行数据预处理,建模等操作。
思维构建datasets模块常用数据集加载函数及其解释使用scikit-learn进行数据预处理会用到scikit-learn提供的统一接口——转换器(Transformer)。加载后的数据集可以视为一个字典,几乎所有的scikit-learn数据集均可以使用data,target,feature_names,DESCR分别获取数据集的数据,标签,特征名称和描述信息。
思维构建将数据集划分在数据分析过程中,为了保证模型在实际系统中能够起到预期作用,一般需要将样本分成独立的三部分:训练集(trainset):用于估计模型。验证集(validationset):用于确定网络结构或者控制模型复杂程度的参数。测试集(testset):用于检验最优的模型的性能。典型的划分方式是训练集占总样本的50%,而验证集和测试集各占25%。
思维构建train_test_split函数scikit-learn的model_selection模块提供了train_test_split函数,能够对数据集进行拆分,其使用格式如下。sklearn.model_selection.train_test_split(*arrays,**options)
思维构建train_test_split函数根据传入的数据,分别将传入的数据划分为训练集和测试集。如果传入的是1组数据,那么生成的就是这一组数据随机划分后训练集和测试集,总共2组。如果传入的是2组数据,则生成的训练集和测试集分别2组,总共4组。train_test_split是最常用的数据划分方法,在model_selection模块中还提供了其他数据集划分的函数,如PredefinedSplit,ShuffleSplit等。
思维构建使用scikit-learn转换器进行数据预处理scikit-learn把相关的功能封装为转换器(transformer)。使用sklearn转换器能够实现对传入的NumPy数组进行标准化处理,归一化处理,二值化处理等操作。转换器主要包括三个方法:
思维构建scikit-learn部分预处理函数与其作用
聚类模型
新知教授聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距离最大化,如图所示。
思维构建聚类方法类别
思维构建scikit-learn常用的聚类算法模块cluster提供的聚类算法及其适用范围如下所示:
思维构建scikit-learn估计器聚类算法实现需要scikit-learn估计器(estimator)。scikit-learn估计器和转换器类似,拥有fit和predict两个方法。两个方法的作用如下。
编玩边学fromsklearn.datasetsimportload_irisfromsklearn.preprocessingimportMinMaxScalerfromsklearn.clusterimportKMeansiris=load_iris()iris_data=iris[data]##提取数据集中的特征iris_target=iris[target]##提取数据集中的标签iris_names=iris[feature_names]###提取特征名scale=MinMaxScaler().fit(iris_data)##训练规则iris_dataScale
您可能关注的文档
- python数据科学课件4-NumPy通用函数与运算教案.docx
- python数据科学课件5-Matplotlib数据可视化(一).pptx
- python数据科学课件5-Matplotlib数据可视化(一)教案.docx
- python数据科学课件6-Matplotlib数据可视化(二).pptx
- python数据科学课件6-Matplotlib数据可视化(二)教案.docx
- python数据科学课件7-Matplotlib数据可视化(三).pptx
- python数据科学课件7-Matplotlib数据可视化(三)教案.docx
- python数据科学课件8-pandas基础(一).pptx
- python数据科学课件8-pandas教案.docx
- python数据科学课件9-pandas基础(二).pptx
- 2026重庆医科大学附属第一医院招聘备考题库含答案详解.docx
- 2026重庆医科大学附属第一医院招聘备考题库及答案详解一套.docx
- 综管办部门职能.doc
- (19页PPT)基于原子力显微镜绿色.pptx
- 综合:主要经济业务核算练习题.docx
- 2026重庆医科大学附属第一医院招聘备考题库及答案详解1套.docx
- 六年级数学下册:突破小升初和倍问题易错点.docx
- 2026重庆华新实验小学教育发展共同体优秀教师招聘备考题库附答案详解.docx
- 2026重庆南岸区弹子石街道办事招聘8人备考题库及完整答案详解1套.docx
- 2026重庆华新实验小学教育发展共同体优秀教师招聘备考题库带答案详解.docx
原创力文档

文档评论(0)