基于Python随机森林算法分析与研究.docVIP

下载本文档

60
0
约6.81千字
约 12页
2021-01-13 发布于北京
举报
版权申诉

基于Python随机森林算法分析与研究.doc

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Python随机森林算法分析与研究摘要在大数据盛行的时代背景下，机器学习这门学科的广泛应用。并且列举运用Python语言进行数据处理的优势，将其与传统语言进行对比，充分体现了Python语言在语言简洁，效率高等方面的优势。这也是本文最后选择Python语言实现SVM算法的主要原因。本文主体内容阐述了支持向量机算法(SVM)的基本内涵，并且用图示和数学方法形象具体讲解了SVM的基本原理。具体分析了SVM算法中线性可分数据、线性不可分数据和含有outlier点的数据集的分类方式。通过对偶问题求解法、核函数、及SMO算法等实现了对最优超平面的求解。并且完成了二分类问题向多标签分类问题的推广。文章通过，使用手写数字数据集在Python上进行SVM模型的训练与测试，体会SVM算法如何解决实际问题。具体的表现了用Python语言实现SVM算法的优势，直观的展现了实验成果。关键字：机器学习 Python SVM 最优超平面核函数 1.1机器学习随着互联网计算机技术的普及应用与发展，随处可见的数据信息数量日益庞大，数据与信息与人们的生活愈发的息息相关。数据量的不断扩大和信息获取方式的不断增多，带来了信息处理日益困难的问题。伴随着硬件性能的快速增长，人们寄希望于计算机可以帮助人类处理越来越庞大的数据。因此，机器学习在近年来得以迅速兴起与发展。机器学习(Machine Learning, ML)是集合了多种领域知识的一门学科，涵盖统计学、概率论、算法复杂度理论等多个领域。用于研究计算机通过模拟人类的学习行为，并且由此去的新知识和技能的能力。机器学习是计算机人工智能的核心，被应用于人工智能的多个领域。顾名思义，机器学习是使用机器来模拟人类学习行为的一项技术。具体来说，机器学习是一门训练机器获取新知识或新技能，包括获取现有知识的学科。这里所说的机器，指的就是计算机、电子计算机、中子计算机、光子计算机或神经计算机等等。机器学习已经在很多领域进行了广泛应用，例如：计算机视觉、DNA序列测序、语音识别、手写识别、医学诊断。机器学习算法是一种能够从数据中进行持续学习的算法。Mitchell (1997)为其提供了一个简洁的定义：对于某类任务T和性能度量 P，一个计算机程序被认为可以从经验E中学习是指，通过经验 E 改进后，它在任务 T 上由性能度量 P 衡量的性能有所提升。其中任务T指的是人们希望机器可以实现的功能。在分类、回归、异常检测、转录、机器翻译等任务上，机器学习已经有了广泛的应用。而获取经验E的过程可以分为无监督算法和有监督算法。两者的区别在于是否对数据集中的数据样本给予标签。 1.2支持向量机在监督学习中，支持向量机是影响力最大的机器学习方法之一。支持向量机由Corinna Cortes和Vapnik等人于1995年提出，其创新的核技术使其不再局限于对线性数据的处理，在对于非线性数据的分类上也有了良好的表现，并已被广泛应用于文本识别、手写字体识别、及时间序列预测等小型分类任务中。支持向量机(Support Vector Machines，SVM)这种机器学习方法是以统计学理论、VC维理论和结构风险最小化原理为基础的。在解决特定问题，如小样本、非线性和高维模式问题时表现优异，并且大大优化克服了机器学习中会遇到的维数灾难问题与过学习问题。SVM具有如下特点： (1)以非线性映射为理论基础，利用内积核函数实现由低维空间到高维空间的非线性映射。 (2)以寻找最优超平面为目标，核心思想为最大化分类间隔。 (3)以少数支持向量为训练结果，去除了大量冗余样本，具有良好的鲁棒性。 (4)理论基础坚实、数学模型简单明了，可以归结为一个受约束的二次型规划(Quadratic Programming，QP)的求解问题。 (5)可以运用牛顿法、内点法等经典优化算法，方便快捷地求得最优解。 SVM作为一类二分类模型，可以处理以下三类数据： (1)线性可分数据。使硬间隔最大化，进行线性分类器学习 (2)近似线性可分数据。使软间隔最大化，进行线性分类器学习 (3)线性可分数据。使核函数与软间隔最大化，进行非线性分类器学习。平面内的直线，对应线性分类器;平面上的曲线，对应非线性分类器。硬间隔虽然可以将线性可分数据集中的样本正确分类，但是受到outlier样本的很大影响，不推荐使用。软间隔可以对近似线性可分数据和非线性可分数据进行分类，离超平面很近的outlier点可以允许被错误分类，从而可以更广泛的应用。 1.3 Python语言