2026年大数据技术应用(数据清洗与分析)试题及答案.docxVIP

  • 0
  • 0
  • 约1.07万字
  • 约 24页
  • 2026-05-11 发布于四川
  • 举报

2026年大数据技术应用(数据清洗与分析)试题及答案.docx

2026年大数据技术应用(数据清洗与分析)试题及答案

一、单项选择题(每题1分,共20分。每题只有一个正确答案,请将正确选项字母填入括号内)

1.在Pandas中,删除DataFrame中所有缺失值占比超过30%的列,最简洁的代码是()

A.df.dropna(thresh=0.7*len(df),axis=1)

B.df.loc[:,df.isnull().mean()0.3]

C.df.dropna(axis=1,how=any)

D.df.loc[:,df.count()/len(df)0.3]

答案:B

2.使用正则表达式提取字符串订单号:AB2026XYZ中的大写字母+数字组合,正确写法是()

A.re.search(r[A-Z]+\d+[A-Z]+,s)

B.re.findall(r[A-Z]{2}\d{4}[A-Z]{3},s)

C.re.match(r[A-Z].\d.[A-Z],s)

D.re.split(r[A-Z]+\d+[A-Z]+,s)

答案:B

3.在SparkSQL中,对倾斜键NULL做随机前缀打散,应使用的函数是()

A.rand()

B.uuid()

C.concat_ws()

D.skewness()

答案:A

4.下列关于TF-IDF的描述,错误的是()

A.词频TF与文档频率DF成正

文档评论(0)

1亿VIP精品文档

相关文档