- 2
- 0
- 约6.48千字
- 约 13页
- 2026-05-13 发布于四川
- 举报
2026年分类与整理试题及答案
1.单项选择题(每题2分,共20分)
1.1在数据仓库中,将原始销售明细表按“年份—月份—省份”三级粒度进行预汇总,这种操作属于下列哪一类数据整理技术?
A.数据归约?B.数据清洗?C.数据变换?D.数据标注
答案:A
1.2某电商将用户行为日志按“用户ID→会话ID→事件时间”建立三级索引,若采用B+树实现,则最有利于下列哪类查询?
A.返回某用户最近30天全部事件?B.返回全站每小时事件总量?C.返回某商品被浏览次数?D.返回事件类型分布
答案:A
1.3在K-means聚类中,若样本x_i被错误分配到簇C_2而非真实簇C_1,则下列指标最直接反映该错误的是
A.轮廓系数?B.兰德指数(RI)?C.戴维森堡丁指数(DBI)?D.簇内平方和(WCSS)
答案:B
1.4对高维稀疏文本向量进行降维,若需保留可解释性,应优先选择
A.t-SNE?B.PCA?C.潜在语义分析(LSA)?D.自编码器
答案:C
1.5在分类模型评估中,若类别极度不平衡且更关注正类召回,应首选
A.Accuracy?B.F1-score?C.AUC-ROC?D.Cohen’sκ
答案:B
1.6下列关于HadoopSequenceFile的描述正确的是
A.支持split压缩块?B.Key与Value必须为Wri
原创力文档

文档评论(0)