- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据清理.ppt
物联网数据处理第四讲 数据预处理;提纲;数据结构与数据类型 ;数据类型——列(属性)的类型 ;;;为什么进行数据预处理;数据为什么会变“脏”?;预处理为什么是重要的?;数据质量的多维度量;数据预处理的主要任务;数据预处理;描述性数据汇总;度量的分类;度量数据的中心趋势;;度量数据的离散度(1);度量数据的离散度(2);盒图——示例;描述数据汇总的图形显示——直方图;分位数图;分位数-分位数图(Q-Q 图);散布图;loess曲线;数据预处理;数据清理;空缺值;如何处理空缺值;噪声数据;分箱(binning):
首先排序数据,并将他们分到等深的箱中
然后可以按箱平均值平滑、按箱中值平滑、按箱边界平滑等等
回归
通过让数据适应回归函数来平滑数据
聚类:
监测并且去除孤立点;噪声数据的处理——分箱;噪声数据的处理——分箱;噪声数据的处理——分箱;噪声数据的处理——分箱;??类;回归:发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即利用拟合函数对数据进行平滑。
方法:
线性回归(简单回归):利用直线建模,将一个变量看作另一个变量的线性函数。如:Y=aX+b,其中a、b称为回归系数,可用最小二乘法求得a、b系数。
非线性回归
;数据预处理;数据集成;处理数据集成中的冗余数据;数据变换;数据变换——规范化;最小-最大规范化;零-均值规范化(z-score规范化);小数定标规范化;数据预处理;数据规约;;属性子集选择;维度归约;数值归约;回归分析与对数线性模型;抽样;;聚类;;数据预处理——小结;
文档评论(0)