2025年数据科学与工程硕士入学考试试卷及答案.docxVIP

2025年数据科学与工程硕士入学考试试卷及答案.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年数据科学与工程硕士入学考试试卷及答案

一、数学基础(共30分)

1.(6分)设随机变量X服从参数为λ的泊松分布,Y为X的平方,即Y=X2。

(1)求Y的期望E(Y);

(2)若X?,X?,…,X?为来自X的简单随机样本,样本均值为X?,求E[(X?)2]。

答案:

(1)泊松分布的期望E(X)=λ,方差Var(X)=λ,故E(X2)=Var(X)+[E(X)]2=λ+λ2。因此E(Y)=E(X2)=λ+λ2。

(2)样本均值X?=(X?+X?+…+X?)/n,其期望E(X?)=λ,方差Var(X?)=Var(X)/n=λ/n。因此E[(X?)2]=Var(X?)+[E(X?)]2=λ/n+λ2。

2.(6分)已知矩阵A=?12?,B=?01?,计算:

?34??-12?

(1)A的迹tr(A)与行列式det(A);

(2)矩阵乘积AB与BA;

(3)判断A是否可逆,若可逆求其逆矩阵A?1。

答案:

(1)tr(A)=1+4=5;det(A)=1×4-2×3=4-6=-2。

(2)AB=?1×0+2×(-1)1×1+2×2?=?-25?;

?3×0+4×(-1)3×1+4×2??-411?

BA=?0×1+1×30×2+1×4?=?34?;

?-1×1+2×3-1×2+2×4??56?

(3)det(A)=-2≠0,故A可逆。A?1=(1/det(A))×伴随矩阵=(-1/2)×?4-2?=?-21?。

?-31??1.5-0.5?

3.(6分)设函数f(x,y)=x3y2+e^(xy)-ln(x+y),求:

(1)一阶偏导数?f/?x和?f/?y;

(2)在点(1,0)处的梯度?f(1,0)。

答案:

(1)?f/?x=3x2y2+ye^(xy)-1/(x+y);

?f/?y=2x3y+xe^(xy)-1/(x+y)。

(2)代入(1,0):

?f/?x|(1,0)=3×12×02+0×e^(0)-1/(1+0)=-1;

?f/?y|(1,0)=2×13×0+1×e^(0)-1/(1+0)=1-1=0;

故梯度?f(1,0)=(-1,0)。

4.(6分)设总体X的概率密度函数为f(x;θ)=θx^(θ-1)(0x1,θ0),X?,X?,…,X?为样本。

(1)求θ的矩估计量;

(2)求θ的极大似然估计量。

答案:

(1)一阶矩E(X)=∫?1x·θx^(θ-1)dx=θ∫?1x^θdx=θ/(θ+1)。令样本均值X?=E(X),解得θ?_矩=X?/(1-X?)。

(2)似然函数L(θ)=∏?=1?θx?^(θ-1)=θ?(∏x?)^(θ-1)。取对数得lnL=nlnθ+(θ-1)∑lnx?。对θ求导并令导数为0:

d(lnL)/dθ=n/θ+∑lnx?=0→θ?_MLE=-n/∑lnx?。

5.(6分)已知二维随机变量(X,Y)的联合概率密度为f(x,y)=?4xy,0≤x≤1,0≤y≤1;

?0,其他。

(1)求X与Y的边缘概率密度f_X(x)和f_Y(y);

(2)判断X与Y是否独立;

(3)计算协方差Cov(X,Y)。

答案:

(1)f_X(x)=∫?∞^∞f(x,y)dy=∫?14xydy=4x·(y2/2)|?1=2x(0≤x≤1),其他为0;同理f_Y(y)=2y(0≤y≤1)。

(2)f(x,y)=4xy=f_X(x)f_Y(y),故X与Y独立。

(3)因独立,Cov(X,Y)=0。

二、数据科学基础(共30分)

6.(6分)某数据集包含1000个样本,特征维度为50,标签为二分类(0/1)。已知正类样本占比15%,且存在多个特征间的高相关性(相关系数0.8)。

(1)针对类别不平衡问题,可采用哪些处理方法?(至少列出3种)

(2)针对特征高相关性问题,常用的解决方法有哪些?(至少列出2种)

答案:

(1)处理类别不平衡的方法:①过采样(如SMOTE);②欠采样(如随机删除多数类样本);③调整分类器损失函数权重(如给正类样本更高权重);④使用适合不平衡数据的评估指标(如F1-score、AUC-ROC)。

(2)处理高相关性特征的方法:①特征选择(如方差阈值、互信息法、L1正则化);②特征提取(如主成分分析PCA、线性判别分析LDA);③手动合并或删除冗余特征。

7.(6分)在监

文档评论(0)

都那样! + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档