大数据处理面试题及详细答案.docxVIP

  • 1
  • 0
  • 约9.8千字
  • 约 11页
  • 2026-05-25 发布于河北
  • 举报

大数据处理面试题及详细答案

一、基础必考题(入门级,考察核心概念掌握度)

1.请解释什么是大数据?大数据的核心特征有哪些?(高频基础题)

答案:大数据不是简单的“大量数据”,而是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,核心是通过对海量、多类型的数据进行分析,挖掘有价值的信息,支撑决策。

大数据的核心特征(常说的5V),结合实际工作理解,不是死记硬背:

Volume(海量性):数据规模大,从GB级跃升到TB、PB甚至EB级,比如电商平台单日用户行为数据可达TB级。

Velocity(高速性):数据产生和处理速度快,要求实时或准实时响应,比如直播平台的弹幕、实时交易数据,必须秒级处理。

Variety(多样性):数据类型多样,包括结构化数据(数据库表、Excel)、半结构化数据(JSON、XML)、非结构化数据(图片、视频、日志),比如用户行为既有数据库里的下单记录,也有评论区的文本、头像图片。

Veracity(真实性):数据质量参差不齐,存在噪声、缺失值、重复数据,比如用户填写的手机号有误、日志数据因网络波动丢失,处理前需要做数据清洗。

Value(价值性):数据本身价值密度低,需要通过筛选、分析,从海量数据中提取有价值的信息,比如从千万条用户行为中,找出高意向购买用户,用于精准推送。

2.结构化数据、半结构化数据、非结构化数据的区别,各举2个实际

文档评论(0)

1亿VIP精品文档

相关文档