2025年北大数院大数据专业数据科学基础试题及答案.docxVIP

下载本文档

0
0
约8.68千字
约 15页
2025-11-13 发布于广东
举报
版权申诉

2025年北大数院大数据专业数据科学基础试题及答案.docx

本文档由用户AI专业辅助创建，并经网站质量审核通过

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025年北大数院大数据专业数据科学基础试题及答案

2025年北京大学数学科学学院大数据专业《数据科学基础》试题

一、单项选择题（每题3分，共15分）

1.设随机变量\(X\sim\text{Exponential}(\lambda)\)，则以下性质中不成立的是（）

A.\(P(Xs+t\midXs)=P(Xt)\)

B.\(E[X^2]=\frac{2}{\lambda^2}\)

C.\(\text{Var}(X)=\frac{1}{\lambda^2}\)

D.\(X\)的中位数小于其期望

2.设总体\(X\simN(\mu,\sigma^2)\)，\(X_1,X_2,\dots,X_n\)为独立同分布样本。关于极大似然估计（MLE），以下说法错误的是（）

A.\(\hat{\mu}_{\text{MLE}}=\bar{X}\)是无偏估计

B.\(\hat{\sigma}^2_{\text{MLE}}=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2\)是渐近无偏的

C.当\(n\to\infty\)时，\(\hat{\mu}_{\text{MLE}}\)依概率收敛于\(\mu\)

D.MLE一定是充分统计量的函数

3.在线性回归模型\(Y=X\beta+\epsilon\)中，若加入\(L_2\)正则化（岭回归），则以下结论正确的是（）

A.模型偏差减小，方差增大

B.估计系数的\(L_2\)范数增大

C.当正则化参数\(\lambda\to\infty\)时，系数估计趋近于0

D.正则化仅用于处理多重共线性，不影响模型泛化能力

4.对于二分类问题，若真实标签为1的样本有100个，预测为1的样本有80个，其中正确预测的有60个，则精确率（Precision）和召回率（Recall）分别为（）

A.0.6,0.6

B.0.75,0.6

C.0.6,0.75

D.0.75,0.75

5.关于决策树的分裂准则，以下说法正确的是（）

A.信息增益（InformationGain）倾向于选择取值较多的特征

B.基尼指数（GiniIndex）仅适用于回归问题

C.均方误差（MSE）用于分类问题的分裂

D.信息增益比（GainRatio）完全消除了信息增益的缺点

二、填空题（每题4分，共20分）

1.设随机变量\(X\simN(1,4)\)，\(Y\simN(2,9)\)，且\(\text{Cov}(X,Y)=3\)，则\(\text{Cov}(2X-Y,X+3Y)=\)______。

2.已知\(P(A)=0.5\)，\(P(B)=0.6\)，\(P(A\cupB)=0.8\)，则\(P(A\midB)=\)______。

3.设线性回归模型\(Y=\beta_0+\beta_1X+\epsilon\)，\(\epsilon\simN(0,\sigma^2)\)，通过最小二乘法得到\(\hat{\beta}_1=\frac{\sum(X_i-\bar{X})(Y_i-\bar{Y})}{\sum(X_i-\bar{X})^2}\)，则\(\text{Var}(\hat{\beta}_1)=\)______（用\(\sigma^2\)和\(X_i\)表示）。

4.对于逻辑回归模型\(P(Y=1\midX)=\frac{1}{1+e^{-X\beta}}\)，其对数似然函数为\(\ell(\beta)=\sum_{i=1}^n[y_iX_i\beta-\ln(1+e^{X_i\beta})]\)，则\(\ell(\beta)\)关于\(\beta\)的梯度为______。

5.设\(K\)-means聚类的目标函数为\(J=\sum_{k=1}^K\sum_{x\inC_k}\|x-\mu_k\|^2\)，其中\(\mu_k\)是簇\(C_k\)的均值。当簇分配固定时，优化\(\mu_k\)的解为______。

三、计算题（每题1

您可能关注的文档

文档评论（0）

***** + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年北大数院大数据专业数据科学基础试题及答案.docxVIP