2025年数据科学与工程硕士入学考试试卷及答案.docxVIP

下载本文档

1
0
约8.41千字
约 21页
2025-11-02 发布于四川
举报
版权申诉

2025年数据科学与工程硕士入学考试试卷及答案.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025年数据科学与工程硕士入学考试试卷及答案

一、数学基础（共30分）

1.（6分）设随机变量X服从参数为λ的泊松分布，Y为X的平方，即Y=X2。

（1）求Y的期望E(Y)；

（2）若X?,X?,…,X?为来自X的简单随机样本，样本均值为X?，求E[(X?)2]。

答案：

（1）泊松分布的期望E(X)=λ，方差Var(X)=λ，故E(X2)=Var(X)+[E(X)]2=λ+λ2。因此E(Y)=E(X2)=λ+λ2。

（2）样本均值X?=(X?+X?+…+X?)/n，其期望E(X?)=λ，方差Var(X?)=Var(X)/n=λ/n。因此E[(X?)2]=Var(X?)+[E(X?)]2=λ/n+λ2。

2.（6分）已知矩阵A=?12?，B=?01?，计算：

?34??-12?

（1）A的迹tr(A)与行列式det(A)；

（2）矩阵乘积AB与BA；

（3）判断A是否可逆，若可逆求其逆矩阵A?1。

答案：

（1）tr(A)=1+4=5；det(A)=1×4-2×3=4-6=-2。

（2）AB=?1×0+2×(-1)1×1+2×2?=?-25?；

?3×0+4×(-1)3×1+4×2??-411?

BA=?0×1+1×30×2+1×4?=?34?；

?-1×1+2×3-1×2+2×4??56?

（3）det(A)=-2≠0，故A可逆。A?1=(1/det(A))×伴随矩阵=(-1/2)×?4-2?=?-21?。

?-31??1.5-0.5?

3.（6分）设函数f(x,y)=x3y2+e^(xy)-ln(x+y)，求：

（1）一阶偏导数?f/?x和?f/?y；

（2）在点(1,0)处的梯度?f(1,0)。

答案：

（1）?f/?x=3x2y2+ye^(xy)-1/(x+y)；

?f/?y=2x3y+xe^(xy)-1/(x+y)。

（2）代入(1,0)：

?f/?x|(1,0)=3×12×02+0×e^(0)-1/(1+0)=-1；

?f/?y|(1,0)=2×13×0+1×e^(0)-1/(1+0)=1-1=0；

故梯度?f(1,0)=(-1,0)。

4.（6分）设总体X的概率密度函数为f(x;θ)=θx^(θ-1)（0x1，θ0），X?,X?,…,X?为样本。

（1）求θ的矩估计量；

（2）求θ的极大似然估计量。

答案：

（1）一阶矩E(X)=∫?1x·θx^(θ-1)dx=θ∫?1x^θdx=θ/(θ+1)。令样本均值X?=E(X)，解得θ?_矩=X?/(1-X?)。

（2）似然函数L(θ)=∏?=1?θx?^(θ-1)=θ?(∏x?)^(θ-1)。取对数得lnL=nlnθ+(θ-1)∑lnx?。对θ求导并令导数为0：

d(lnL)/dθ=n/θ+∑lnx?=0→θ?_MLE=-n/∑lnx?。

5.（6分）已知二维随机变量(X,Y)的联合概率密度为f(x,y)=?4xy,0≤x≤1,0≤y≤1；

?0,其他。

（1）求X与Y的边缘概率密度f_X(x)和f_Y(y)；

（2）判断X与Y是否独立；

（3）计算协方差Cov(X,Y)。

答案：

（1）f_X(x)=∫?∞^∞f(x,y)dy=∫?14xydy=4x·(y2/2)|?1=2x（0≤x≤1），其他为0；同理f_Y(y)=2y（0≤y≤1）。

（2）f(x,y)=4xy=f_X(x)f_Y(y)，故X与Y独立。

（3）因独立，Cov(X,Y)=0。

二、数据科学基础（共30分）

6.（6分）某数据集包含1000个样本，特征维度为50，标签为二分类（0/1）。已知正类样本占比15%，且存在多个特征间的高相关性（相关系数0.8）。

（1）针对类别不平衡问题，可采用哪些处理方法？（至少列出3种）

（2）针对特征高相关性问题，常用的解决方法有哪些？（至少列出2种）

答案：

（1）处理类别不平衡的方法：①过采样（如SMOTE）；②欠采样（如随机删除多数类样本）；③调整分类器损失函数权重（如给正类样本更高权重）；④使用适合不平衡数据的评估指标（如F1-score、AUC-ROC）。

（2）处理高相关性特征的方法：①特征选择（如方差阈值、互信息法、L1正则化）；②特征提取（如主成分分析PCA、线性判别分析LDA）；③手动合并或删除冗余特征。

7.（6分）在监

您可能关注的文档

文档评论（0）

都那样！ + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年数据科学与工程硕士入学考试试卷及答案.docxVIP