2026年大模型训练数据清洗去噪考核卷答案及解析
1.单项选择题(每题2分,共20分)
1.1在万亿级语料清洗流程中,下列哪一项通常被放在第一步执行?
A.正则过滤HTML标签?B.语言识别与语种分流?C.低质量片段打分?D.敏感内容删除
答案:B
解析:语言识别是后续所有规则与模型的前提,先分流可避免无效计算。
1.2使用MinHash-LSH对网页去重时,若Jaccard阈值设为0.9,则对shingle长度k=5的32位签名,理论上误判率最接近:
A.0.1%?B.1%?C.5%?D.10%
答案:B
解析:根据Broder公式,误判概率≈1?(1?(1?0.9^5
原创力文档

文档评论(0)