2025年北大数院大数据专业数据科学基础试题及答案.docxVIP

2025年北大数院大数据专业数据科学基础试题及答案.docx

本文档由用户AI专业辅助创建,并经网站质量审核通过
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年北大数院大数据专业数据科学基础试题及答案

2025年北京大学数学科学学院大数据专业《数据科学基础》试题

一、单项选择题(每题3分,共15分)

1.设随机变量\(X\sim\text{Exponential}(\lambda)\),则以下性质中不成立的是()

A.\(P(Xs+t\midXs)=P(Xt)\)

B.\(E[X^2]=\frac{2}{\lambda^2}\)

C.\(\text{Var}(X)=\frac{1}{\lambda^2}\)

D.\(X\)的中位数小于其期望

2.设总体\(X\simN(\mu,\sigma^2)\),\(X_1,X_2,\dots,X_n\)为独立同分布样本。关于极大似然估计(MLE),以下说法错误的是()

A.\(\hat{\mu}_{\text{MLE}}=\bar{X}\)是无偏估计

B.\(\hat{\sigma}^2_{\text{MLE}}=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2\)是渐近无偏的

C.当\(n\to\infty\)时,\(\hat{\mu}_{\text{MLE}}\)依概率收敛于\(\mu\)

D.MLE一定是充分统计量的函数

3.在线性回归模型\(Y=X\beta+\epsilon\)中,若加入\(L_2\)正则化(岭回归),则以下结论正确的是()

A.模型偏差减小,方差增大

B.估计系数的\(L_2\)范数增大

C.当正则化参数\(\lambda\to\infty\)时,系数估计趋近于0

D.正则化仅用于处理多重共线性,不影响模型泛化能力

4.对于二分类问题,若真实标签为1的样本有100个,预测为1的样本有80个,其中正确预测的有60个,则精确率(Precision)和召回率(Recall)分别为()

A.0.6,0.6

B.0.75,0.6

C.0.6,0.75

D.0.75,0.75

5.关于决策树的分裂准则,以下说法正确的是()

A.信息增益(InformationGain)倾向于选择取值较多的特征

B.基尼指数(GiniIndex)仅适用于回归问题

C.均方误差(MSE)用于分类问题的分裂

D.信息增益比(GainRatio)完全消除了信息增益的缺点

二、填空题(每题4分,共20分)

1.设随机变量\(X\simN(1,4)\),\(Y\simN(2,9)\),且\(\text{Cov}(X,Y)=3\),则\(\text{Cov}(2X-Y,X+3Y)=\)______。

2.已知\(P(A)=0.5\),\(P(B)=0.6\),\(P(A\cupB)=0.8\),则\(P(A\midB)=\)______。

3.设线性回归模型\(Y=\beta_0+\beta_1X+\epsilon\),\(\epsilon\simN(0,\sigma^2)\),通过最小二乘法得到\(\hat{\beta}_1=\frac{\sum(X_i-\bar{X})(Y_i-\bar{Y})}{\sum(X_i-\bar{X})^2}\),则\(\text{Var}(\hat{\beta}_1)=\)______(用\(\sigma^2\)和\(X_i\)表示)。

4.对于逻辑回归模型\(P(Y=1\midX)=\frac{1}{1+e^{-X\beta}}\),其对数似然函数为\(\ell(\beta)=\sum_{i=1}^n[y_iX_i\beta-\ln(1+e^{X_i\beta})]\),则\(\ell(\beta)\)关于\(\beta\)的梯度为______。

5.设\(K\)-means聚类的目标函数为\(J=\sum_{k=1}^K\sum_{x\inC_k}\|x-\mu_k\|^2\),其中\(\mu_k\)是簇\(C_k\)的均值。当簇分配固定时,优化\(\mu_k\)的解为______。

三、计算题(每题1

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档