模式识别与机器学习-习题及答案 ch04 线性分类与回归模型.docx

下载文档

4
0
约3.53千字
约 4页
2023-11-23 发布于山东
举报
版权申诉
保障服务

模式识别与机器学习-习题及答案 ch04 线性分类与回归模型.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

线性分类与回归模型习题 1.设有一维空间二次判别函数 g(x)=5+8x+2x2 试将其映射为高维线性判别函数。答：为了将一维空间二次判别函数映射为高维线性判别函数，我们可以将其转化为一个线性判别函数和一个非线性判别函数的组合。对于二次函数g(x)=5+8x+2x2，我们可以将其拆分为两部分： g(x)=5+8x，这是线性部分。 g(x)=2x2，这是非线性部分。对于线性部分，我们可以直接将其作为高维线性判别函数的一部分。对于非线性部分，我们可以将其映射到一个高维空间，然后再将其与线性部分结合起来。具体来说，我们可以使用非线性变换将x映射到一个高维空间，例如将x映射到x=(x, x2)，然后将(x, x2)作为输入，使用线性判别函数进行分类。 (2)现有样本x=2,x=-2,试用非线性变换后的判别函数判断它们的类。答：对于样本x=2和x=-2，我们可以先计算它们的非线性部分的值：当x=2时，非线性部分的值是2×22=8。当x=-2时，非线性部分的值是2×(-2)2=8。由于两个样本的非线性部分的值相同，因此它们的类也是相同的。因此，我们可以使用非线性变换后的判别函数判断它们的类。略 3.有一个三类问题，按最大值判别建立了三个判别函数： d?(x)=-x?+x? d?(x)=x?+x?-1 d?(x)=-x? 现有样本x?=(1,1)T,x?=(3,5)T,x?=(2,5)T,x?=(0,1)T,x?=(0,-5)T,x?=(5,0)T,试判断它们各自属于哪个类。答：我们有一个三类问题，每个类有一个判别函数。我们的任务是，给定一组样本，判断每个样本属于哪个类。每个判别函数都是基于两个特征值的比较。 d?(x) = -x? + x? d?(x) = x? + x? - 1 d?(x) = -x? 对于每个样本，我们将计算这些判别函数的结果，并确定样本属于哪个类。 x? 属于类 d?。 x? 属于类 d?。 x? 属于类 d?。 x? 属于类 d?。 x? 属于类 d?。 x? 属于类 d?。略 5.设有模型y=W?+M?X?+w?X?+E,在下列条件下分别求出W和w?的最小二乘估计量： (1)W?+w?=1 (2)W?=W? 答：为了求解W和w?的最小二乘估计量，我们需要先导入需要的库，然后根据题目条件建立模型，最后使用最小二乘法进行估计。对于条件(1)，W和w?的最小二乘估计量为：[E - M1*X1 + W1*X2 - X2] 对于条件(2)，W和w?的最小二乘估计量为：[E - M1*X1 - W2*X2] 岭回归是在什么情况下提出的? 答：岭回归，又叫吉洪诺夫正则化，是由Hoerl和Kennard于1970年提出的一种专用于共线性数据分析的有偏估计回归法。当解释变量间出现严重的多重共线性时，用普通最小二乘法估计模型参数往往导致参数估计方差太大，使普通最小二乘法的效果变得很不理想。为了解决这一问题，统计学家从模型和数据的角度考虑，采用回归诊断和自变量选择来克服多重共线性的影响，这时岭回归作为一种新的回归方法被提出来了。岭回归估计的定义及其统计思想是什么? 答：岭回归估计是一种回归方法，它通过引入偏误来减小参数估计量的方差。其统计思想是在处理具有多重共线性的数据时，对XX加上一个正常数矩阵D，这样XX+D接近奇异的程度就会比XX接近奇异的程度小得多，从而完成回归。在UCI糖尿病数据集上，利用多元线性回归分析实现是否患有糖尿病的预测。答：1. 数据预处理：首先，我们需要对数据进行清洗和预处理，包括处理缺失值、异常值和重复值。此外，还需要对数据进行标准化或归一化处理，以消除不同特征之间的量纲和数值差异。 2. 特征选择：在糖尿病数据集中，我们有9个特征，包括是否患病、怀孕次数、血糖、血压、皮脂厚度、胰岛素、BMI身体质量指数、糖尿病遗传函数和年龄。我们可以利用多元线性回归模型对数据进行拟合，并评估每个特征的贡献和重要性。 3. 模型训练：选择训练集和测试集，通常采用交叉验证的方法来评估模型的性能。在训练集上训练多元线性回归模型，并使用测试集来检验模型的泛化能力。 4. 预测结果：利用训练好的模型，对测试集进行预测，并评估模型的预测精度、准确率和召回率等指标。 5. 结果分析：根据预测结果，我们可以进一步分析糖尿病的影响因素，以及不同特征之间的关系。利用多元线性回归的方法预测波士顿的房价。答：1. 读取数据：从boston.csv文件中读取所需数据。可以使用Python中的pandas库来读取数据文件，如： ```python import pandas as pd df = pd.read_csv(data/boston.csv,header=0) ``` 2. 数据预处理：设置数据输入