- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第1章机器学习技术简介;
1.3Python平台搭建
1.4Spark平台搭建;
1.1.1机器学习的概念
机器学习是计算机从数据中学习到规律和模式,以
应用在新的数据上完成分析或预测任务的一种技术。
机器学习的研究方向主要分为两类:第一类是传统机器学习,主要研究学习机制,注重探索模拟人的学习
机制,其研究成果在Python的scikit-learn(简称
sklearn)上有非常成熟的落地。第二类是大数据环境
下机器学习的研究,主要是研究如何有效利用信息,注
重从巨量数据中获取隐藏的、有效的、可理解的知识。
Hadoop大数据生态圈中的Spark是其典型代表。;
1.1.2机器学习的算法模型
机器学习的分类方法有多种,根据算法的学习方式可以分为监督学习、无监督学习、半监督学习和强化学
习等
1.监督学习
监督学习是将一些“标记好”的数据作为训练数据进行训练,并基于该数据预测输出。标记的数据意味着一些输入数据已经用正确的输出标记,在监督学习中充当监督者,训练机器正确预测输出。这些标记好的数据
充当导师。
分类模型、回归模型、神经网络以及数据降维中的线性判别分析算法都属于监督学习。;
2.无监督学习
无监督学习不使用训练数据集进行监督,模型使用未标记的数据集进行训练,并允许在没有任何监督的情况下对该数据进行操作。这里没有标记好的数据引导,也不存在导师。计算机自主地基于某种算法对数据进行处理和学
习,根据训练数据集的内在特征对数据进行分类或产生相
互关联。
聚类模型、关联模型以及数据降维中的主成分分析算法和奇异值分解算法都属于无监督学习。;
3.半监督学习
半监督学习在训练模型时同时使用了有标签数据和无标签数据,其中小部分是有标签数据,大部分是无标签数据。它结合了监督学习和无监督学习的特点,旨在利用少量标记样本和大量未标记样本提升学习效果。
通常在标记样本数量不足时使用,通过引入无标记样本,捕捉数据的整体潜在分布,从而改善学习效果。;
4.强化学习
计算机使用强化学习时,通过尝试不同的行为,从反馈中学习该行为是否能够得到更好的结果,然后记住
能???到更好结果的行为。强化学习不要求预先给定任何
数据,而是通过接收环境对动作的奖励(或负向反馈)
获得学习信息并更新模型参数。在多次迭代中自主地重
新修正算法,直到做出正确的判断为止。
强化学习主要应用于信息论、博弈论、自动控制等
领域。;
1.1.3机器学习程序开发步骤
数据获取数据预处理模型训练模型测试模型应用
1.数据获取
数据获取,就是从生产环境中或互联网上得到数据。;
1.1.3机器学习程序开发步骤
2.数据预处理
数据预处理就是对数据进行清洗和转换,使其符合后续的模型训练和模型测试的要求。
数据清洗就是对数据中缺失、不完整或有缺陷的数据进行处理,输出正确完整的数据集。
数据转换就是把清洗好的数据转换成能够被算法模型
识别的格式类型。;
3.模型训练
根据问题需要,选择算法模型。将预处理之后的数据输入算法模型中进行训练。对于监督学习,把数据划分
为训练集和测试集,训练集用来训练模型;对于无监督
学习,把所有的数据作为一个整体进行训练,设置一个
结束条件,达到结束条件后,训练结束,训练的效果提
交到模型测试阶段进行评估。
4.模型测试
为了评估模型,必须测试算法工作的效果。对于监督学习,把数据划分为训练集和测试集,训练集用来训练模型,测试集用来评估模型的分类效果;对于无监督学习,用其他评测手段来检验算法的效果。;
5.模型应用
将机器学习算法模型转化为应用程序,执行实际任
务,以检验上述步骤是否可以在实际环境中正常运行。
运行效果不满意或有新问题、新数据出现,可以返回第
一步重新获取数据。;
用于机器学习的工具非常多,就其面向的用户而言,
可以划分为两大类。
第一类是面向非计算机专业人员的图形化、零代码工具,如SPSS、SAS等。
第二类是面向计算机专业人员的编程实现工具,如
Python的sklearn、Spark的ML和MLlib等。
Python做机器学习任务,数据集不能太大,如果数据集超过了单机环境的上限,就要采用Spark做机器学习任务。Spark是大数据环境下进行数据处理和分析的良好
工具。;
412.6M2021-05-1322:08:46
285.3M2021-05-1014:23:03
436.9M2021-05-1014:21:10
473.7M2021-05-1014:21:09
405.0M2021-05-1014:21:
您可能关注的文档
- 湖北理工学院《表面工程技术》2023-2024学年第一学期期末试卷.docx
- 南京工业大学《金属表面工程》2022-2023学年第一学期期末试卷.docx
- 人教版九年级全册英语Unit 1-14语法知识清单(实用,必备!).docx
- 新教材苏教版高中数学必修第一册全册书各章节知识点考点重点难点归纳总结.docx
- 《Python少儿编程》PPT课件(共11章553页).pptx
- 《高级算法设计》课件全套林海第1--7章线性规划---启发式算法.pptx
- 《工业机器视觉技术应用》 课件 3.2 三维点云处理算法介绍.pptx
- 《人工智能基础(Python实现)》PPT完整全套教学课件.pptx
- 工业数据采集与边缘服务(中级)课件全套廖永红1--12工业数据采集与边缘服务平台---边缘服务接口服务开发.pptx
- 公共空间设计(高职环境艺术设计和室内设计专业)PPT完整全套教学课件.pptx
最近下载
- 不锈钢中合金元素的作用及其研究现状.pdf VIP
- 材料力学性能对高温水环境中镍基合金裂尖应力分布的影响.pdf VIP
- 材料性能对铝合金FSW接头组织与力学性能的影响.pdf VIP
- 注册会计师-会计-基础练习题-第十一章借款费用-第一节借款费用概述.pdf VIP
- 注册会计师-会计-强化练习题-第十一章借款费用.docx VIP
- 注册会计师-会计-高频考点题-第十一章借款费用.docx VIP
- 北师大版(2024)小学数学一年级上册《淘气的一天》教案及反思.pdf VIP
- 漂亮的excel数据统计图表8公司人力资源可视化看板1.docx VIP
- 苏教版(2024)二年级数学上册课件 第5单元 练习九.pptx VIP
- (高清版)B/T 13813-2023 煤矿用金属材料摩擦火花安全性试验方法和判定规则.pdf VIP
原创力文档


文档评论(0)