Python数据挖掘与机器学习清华大学习题答案.docxVIP

下载本文档

89
0
约1.72千字
约 4页
2023-06-24 发布于浙江
举报
版权申诉

Python数据挖掘与机器学习清华大学习题答案.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Python数据挖掘与机器学习清华大学习题答案作为一门数据科学领域中的重要工具，Python在数据挖掘与机器学习领域中遭遇到了广泛应用。Python 已经成为了一种实现算法和构建机器学习模型的基础语言。在本篇文章中，我们将讨论清华大学Python数据挖掘与机器学习课程中的一些习题。1. 如何处理缺失值？缺失值是一个数据挖掘或机器学习项目中常见的问题。在工作中，当遇到缺失值时，我们需要判断缺失的数据量、缺失数据的类型以及缺失数据的分布情况。在Python中，缺失值常使用NaN（Not a Number）来表示，由于Python自带了处理NaN的库，因此处理缺失值变得更加简单，我们可以使用pandas、numpy或者sklearn等库来处理缺失值。pandas处理缺失值常用的方法有：1）isnull() / notnull() 方法：它们能够返回一个布尔值对象，指示数据中的每个元素是否为NaN或不为NaN。2）dropna() 方法：该方法能够删除包含NaN值的行或列。3）fillna() 方法：该方法可以使用指定的值或方法填充缺失值。numpy处理缺失值常用的方法有：1）isnan() 方法：该函数能够返回一个布尔值对象，指示数据中的每个元素是否为NaN。2）delete() 方法：该方法可以删除包含NaN值的行或列。3）mean() 方法：该方法可以计算均值，也可以把均值作为NaN值的替代。sklearn处理缺失值常用的方法有：1）SimpleImputer 模块：这个模块可以用于填充缺失值，支持均值，中位数，众数或常量以及其他的策略。2）KNNImputer 模块：它可以使用KNN算法来估计缺失值的值。2. 如何选择特征？特征是机器学习中的关键。特征选择需要使用一些组合技巧和算法选择某些特征。这些技术和算法可以帮助我们筛选出能够帮助我们预测目标变量的最重要的特征。特征选择通常分为三个层次：1）Filter-Based Methods：这些方法通常会计算特征与目标变量之间的相关性，其中包括相关性和方差等等。例如，卡方检验可以用于选择分类结果和分类变量之间的特征。2）Wrapper-Based Methods：这些方法采用迭代方法进行特征选择，使用某种特定类型的模型来帮助筛选出最优的特征组合。例如，递归特征消除（RFE）可以用于迭代地训练模型，并自动筛选出对结果最有影响的特征。3）Embedded Methods：这些方法在建立模型时进行特征选择。模型的训练过程中会自动提取和筛选出重要的特征。例如，Lasso回归和Ridge回归都可以用于特征选择和降维。3. 如何使用正则化？正则化是机器学习领域中一种很常见的技术，主要用于减小模型的过度学习风险，以使模型能够更好地泛化预测新的数据。常见的正则化包括Ridge正则化和Lasso正则化。正则化通常是指对代价函数中的每一项添加一个惩罚项，这样可以让欠拟合和过拟合之间达到平衡。Ridge正则化和Lasso正则化的作用是通过对权重进行限制，尽可能避免过度拟合或欠拟合。本节中我们简单讲解下两种正则化。1）Ridge正则化：Ridge正则化是一种L2正则化的形式。它向优化的代价函数中添加了一个平方和的正则化部分。这将避免过拟合，因为它降低了模型的复杂度。使用Ridge正则化时我们可以使用下面给出的这个公式：Θ = argmin?Σ〖(y-y_pred)2+(${{α} \over 2}$) Σ Θ2〗其中，α是正则化系数。2）Lasso正则化：Lasso正则化是一种L1正则化的形式。它向优化的代价函数中添加了一个绝对值和的正则化部分。这可以用于选择模型中最重要的变量。使用Lasso正则化时我们可以使用下面这个公式：Θ = argmin?Σ〖(y-y_pred)2+α Σ|Θ|〗其中，α是正则化系数。总的来说，正则化可以帮助我们缓解过拟合或者欠拟合，并且可以提高我们模型的性能。正则化广泛地应用于线性回归，逻辑回归和神经网络模型等。