数据采集、清洗与标注 第6章课后习题参考答案.docx

数据采集、清洗与标注 第6章课后习题参考答案.docx

第6章课后习题参考答案

1.脏数据产生原因(第5章5.1节)

??五大根源??:

??采集环节??

传感器故障(如DHT11温湿度传感器异常)

网络传输丢包(图3-9数据包丢失示意图)

??录入过程??

人工输入错误(如价格多输小数点)

系统接口不兼容(字符编码冲突)

??存储问题??

数据库事务中断

文件存储损坏(如CSV文件被异常修改)

??处理缺陷??

ETL流程设计错误(第5章图5-1转换逻辑缺陷)

算法计算溢出(如数值超过字段定义范围)

??环境因素??

电磁干扰影响传感器读数

网络延迟导致数据不完整

2.字符串删除指定字符(第6章6.1.2节)

??三种实现方式??:

#方法

文档评论(0)

1亿VIP精品文档

相关文档