大数据文本标注质控技师(中级)考试试卷及答案.docVIP

  • 1
  • 0
  • 约2.44千字
  • 约 5页
  • 2026-02-02 发布于山东
  • 举报

大数据文本标注质控技师(中级)考试试卷及答案.doc

大数据文本标注质控技师(中级)考试试卷及答案

一、填空题(每题1分,共10分)

1.文本标注质控中,______是指标注结果与真实标签的一致性程度。

2.标注数据的______指有效标注样本占总样本的比例,排除无效/重复样本。

3.常见文本标注类型包括命名实体识别(NER)、______和情感分析等。

4.质控抽检中,______抽样可避免主观偏差,随机选取样本检查。

5.开源标注工具中,______支持多人协作,常用于实体/关系标注。

6.标注误差类型包括标注者误差、______和规则理解误差。

7.文本标注质控核心目标是保证标注的准确性、______和一致性。

8.多轮标注中,______指不同轮次标注结果的稳定程度。

9.标注完整性要求覆盖所有信息点,无______。

10.质控报告中,______是对不合格标注的原因分类统计。

二、单项选择题(每题2分,共20分)

1.不属于文本标注质控核心指标的是?

A.准确率B.有效率C.点击率D.一致性

2.标注者间一致性(IAA)常用计算方法是?

A.CohensKappaB.卡方检验C.T检验D.方差分析

3.下列开源免费标注工具是?

A.LabelStudioB.ProdigyC.SageMakerGroundTruthD.Labelbox

4.文本标注质控第一步通常是?

A.样本抽检B.规则培训C.结果审核D.错误修正

5.属于标注者主观误差的是?

A.数据缺失B.规则理解偏差C.工具bugD.数据重复

6.情感分析标注(正面/负面/中性)属于?

A.分类标注B.实体标注C.关系标注D.序列标注

7.标注者错误率超过多少需暂停标注?

A.5%B.10%C.15%D.20%

8.标注完整性检查不包括?

A.实体是否全标注B.关系是否完整C.标注时间是否合规D.标签覆盖类别

9.标注数据有效性要求是?

A.标注无矛盾B.样本数量足够C.工具正常D.标注者资质达标

10.质控报告不包含?

A.错误类型统计B.改进建议C.标注者绩效D.工具版本

三、多项选择题(每题2分,共20分)

1.文本标注质控目标包括?

A.准确性B.效率C.一致性D.降成本

2.标注误差来源有?

A.规则不清晰B.标注者专业不足C.数据模糊D.工具复杂

3.IAA应用场景包括?

A.评估规则合理性B.筛选合格标注者C.验证结果可靠性D.计算准确率

4.常见文本标注类型有?

A.NERB.关系抽取C.文本分类D.语义角色标注

5.质控抽检方法有?

A.随机抽样B.分层抽样C.重点抽样D.全量审核

6.标注审核要点包括?

A.标签准确B.完整性C.一致性D.标注时间

7.标注工具核心功能有?

A.实体标注B.关系标注C.多人协作D.质控统计

8.质控报告应包含?

A.抽检量B.错误率C.错误归因D.改进建议

9.标注者培训关键内容有?

A.规则解读B.工具操作C.错误案例D.考核测试

10.无效标注样本包括?

A.规则不符B.重复标注C.空标注D.标注超时

四、判断题(每题2分,共20分)

1.准确率=正确标注数/总标注数。()

2.IAA越高,标注结果越可靠。()

3.开源工具比商业工具适合所有场景。()

4.质控只需检查标注结果,无需核对原始数据。()

5.文本分类标注只能标一个类别。()

6.规则越详细,标注偏差越小。()

7.错误率=不合格数/抽检数。()

8.关系抽取只需标实体,无需标关系类型。(×)

9.质控报告只需记录错误,无需提建议。(×)

10.标注者资质高,质量一定好。(×)

五、简答题(每题5分,共20分)

1.简述文本标注质控基本流程。

2.如何计算标注者间一致性(IAA)?

3.标注数据有效性判断标准有哪些?

4.标注规则设计注意事项是什么?

六、讨论题(每题5分,共10分)

1.若标注批次错误率达15%(预期5%),作为质控技师如何处理?

2.如何平衡文本标注的效率与质量?

---

答案部分

一、填空题

1.准确率2.有效率3.关系抽取(或文本分类)4.随机5.LabelStudio

6.数据本身误差(或工具误差)7.完整性8.一致性(或稳定性)9.遗漏10.错误归因

二、单项选择题

1.C2.A3.A4.B5.B6.A7.B8.C9.A10.D

三、多项选择题

1.ABC2.ABCD3.ABC4.ABCD5.ABC6.ABC7.ABCD8.ABCD9.ABCD10.ABC

四、判断题

1.√2.√3.×4.×5.×6.√7.√8.×9.×10.×

五、简答题

1.流程:①规则培训→考核合格上岗;②标注者完成标注提交;③随机/分层抽检,核对准确性、完整性、一致性;④标记不合格样本,退回修正;⑤统计错误率、归因,输出报告并提改进建议。

2.常用CohensKappa(双标注者):①统

文档评论(0)

1亿VIP精品文档

相关文档