Python机器学习及实践课后小题 .pdfVIP

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Python机器学习及实践课后⼩题

@

⽬录

第⼆章2.3章末⼩结

1

机器学习模型按照使⽤的数据类型,可分为监督学习和⽆监督学习两⼤类。

1.监督学习主要包括分类和回归的模型。

分类:线性分类,⽀持向量机(SVM),朴素贝叶斯,k近邻,决策树,集成模型(随机森林(多个决策树)等)。

回归:线性回归,⽀持向量机(SVM),k近邻,回归树,集成模型(随机森林(多个决策树)等)。

2.⽆监督学习主要包括:数据聚类(k-means)和数据降维(主成分分析)等等。

分类模型

线性:假设特征与分类结果存在线性关系,使⽤sigmoid函数映射到0~1,适合处理具有线性关系的数据。

在科学研究与⼯程实践中可把线性分类器的表现作为基准。lr使⽤精确解析,SGD使⽤随机梯度上升估计模型参数,耗时短,准确率略低

评价指标:准确性,召回率,精准率,和后⼆者混合的F1指标

⽀持向量机:精妙的模型假设,线性假设,只⽤考虑两个空间间隔最⼩的两个不同类别的数据点。可以在⾼维数据中选择最为有效的少数训练样本。这样不仅节省了模型学习所

需要的内存,⽽且也提⾼了模型的预测性能,但付出了计算资源和时间的代价。

2

评价指标:同上,在回归中有R,MS(平⽅)E,MA(绝对)E。

朴素贝叶斯(naivebayes)基于贝叶斯理论。前提:各个维度上的特征被分类的条件概率之间互相独⽴。

缺点:由于模型的强假设,需要估计的参数规模从幂指数量级到线性数量级减少,极⼤节约了内存消耗和计算时间。但是对特征关联性较强的任务上表现不佳。

评价指标:同线性

k近邻:不需要参数训练,其属于⽆参数模型。⾮常⾼的计算复杂度(平⽅级)和内存消耗。

决策树:推断逻辑直观,有清晰的可解释性,也⽅便模型的可视化,易描述⾮线性关系。模型在学习的时候,需要考虑特征节点的选取顺序。

常⽤的度量⽅式包括信息熵和基尼不纯性。并不懂。。

集成模型:有代表性的随机森林,同时搭建多个决策树模型,开始投票。

决策树可以随机选取特征构建节点(随机森林),或者按次序搭建分类模型(梯度提升决策树GTB)

特点:训练耗费时间,但是往往有更好的表现性能和稳定性。

我看分类这边都在⽤线性的度量指标。

回归模型

2

只是评估指标变了,在回归中有R,MS(平⽅)E均⽅误差,MA(绝对)E平⽅绝对误差。

R2⽤来衡量模型回归结果的波动可被真实值验证的百分⽐,也暗⽰了模型在数值回归⽅⾯的能⼒。

⽆监督学习

数据聚类

主流的k-means采⽤的迭代算法,直观易懂并⾮常实⽤。

容易收敛到局部最优解

需要预先设定簇的数量

可使⽤肘部“”观察法粗略地预估相对合理的类簇个数。

数据降维

主成分分析(PCAprincipalcomponentanalysis)

相较于损失的少部分模型性能。维度压缩能够节省⼤量模型训练时间。

明天开始进阶篇

隐隐约约感觉不太对,这个没啥基础啊全是调⽤

文档评论(0)

152****2979 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档