2026年大模型训练数据清洗去噪考核卷答案及解析.docx

2026年大模型训练数据清洗去噪考核卷答案及解析.docx

2026年大模型训练数据清洗去噪考核卷答案及解析

1.单项选择题(每题2分,共20分)

1.1在万亿级语料清洗流程中,下列哪一项通常被放在第一步执行?

A.正则过滤HTML标签?B.语言识别与语种分流?C.低质量片段打分?D.敏感内容删除

答案:B

解析:语言识别是后续所有规则与模型的前提,先分流可避免无效计算。

1.2使用MinHash-LSH对网页去重时,若Jaccard阈值设为0.9,则对shingle长度k=5的32位签名,理论上误判率最接近:

A.0.1%?B.1%?C.5%?D.10%

答案:B

解析:根据Broder公式,误判概率≈1?(1?(1?0.9^5

文档评论(0)

1亿VIP精品文档

相关文档