- 2
- 0
- 约7.68千字
- 约 18页
- 2026-05-16 发布于山西
- 举报
2026年大数据采集标注员中级工模拟试题及考点梳理
一、单项选择题
1.关于数据采集的伦理与法律边界,以下说法正确的是()。
A.只要数据在互联网上公开,就可以无限制地采集和使用
B.采集个人数据时,必须明确告知用户并取得其同意
C.为了研究目的,可以匿名化处理数据,无需考虑原始数据来源的授权
D.爬取竞争对手网站的全部数据用于商业分析是合法的竞争行为
答案:B
解析:数据采集必须遵守法律法规和伦理规范。根据《个人信息保护法》等相关规定,处理个人信息应当取得个人同意。选项A、C、D均存在明显的法律或伦理问题。公开数据不等于可以任意使用,需注意网站Robots协议、服务条款及著作权等限制;匿名化处理不能完全免除获取数据阶段的合规义务;未经授权爬取商业数据可能构成不正当竞争或侵犯商业秘密。
2.在进行图像数据标注时,发现一批图片存在严重模糊、关键信息缺失的问题,标注员的正确做法是()。
A.根据经验猜测模糊部分的内容进行标注
B.直接跳过这些图片,不进行标注
C.将其标记为“难例”或“质量不合格”,并提交给质检或项目管理人员处理
D.为了不影响标注进度,勉强进行标注,并在备注中说明图片质量差
答案:C
解析:数据质量是标注的生命线。对于质量不合格的原始数据,标注员不应自行猜测或勉强标注,这会将错误引入数据集,影响后续模型训练。正确的流程是依据项目规范,将其归类为“难
原创力文档

文档评论(0)