统计方法2数据的预处理.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计方法2数据的预处理

统计方法2 数据的预处理 第一节 数据预处理的目的和内容 我们面临的统计工作是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但有潜在的有用信息和知识的过程。随着信息与计算技术的发展,我们所要处理的数据来源非常广泛,容量非常巨大(海量数据)。 海量的原始数据中存在着大量杂乱的、重复的、不完整的数据,严重影响到统计方法的执行效率,甚至可能导致结果的偏差。为此,在进行统计计算之前,必须对收集到的原始数据进行预处理,以改进数据的质量,提高数据挖掘过程的效率、精度和性能。数据预处理主要包括数据清理、数据集成、数据变换与数据归约等技术。 数据清理 要去除源数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据、空缺值, 识别删除孤立点等。 1) 噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。 2)空缺值的处理 最常用的方法是使用最可能的值填充空缺值, 如用一个全局常量替换空缺值、使用属性的平均值填充空缺值或将所有元组按某些属性分类, 然后用同一类中属性的平均值填充空缺值。 3)清洗脏数据 数据并不都是正确的,常常不可避免地存在着不完整、不一致、不精确和重复的数据,这些数据统称为“脏数据”。脏数据能使挖掘过程陷入混乱,导致不可靠的输出。 2.数据集成 集成多个数据库、数据立方体或文件 3.数据变换 数据变换主要是找到数据的特征表示,用维数变换或转换方法减少有效变量的数目或找到数据的不变式,包括规格化、变换和投影等操作。 规格化是指将元组集按规格化条件进行合并,如属性值量纲的归一化处理,标准化等。 4.数据归约 得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 第二节利用Matlab进行数据预处理 1.Cftool 在matlab 曲线拟合工具箱中提供的一元数据的分析工具 Cftool cftool(xdata,ydata) cftool(xdata,ydata,w) %w是拟合的权重 利用cftool可以进行平滑处理,进行拟合(线性和非线性的),数据筛选,及拟合后的插值,外推,差分,积分等后处理工作。 2.数据的平滑处理 对时间序列数据进行处理时,往往要进行平滑处理。 Matlab中除了Cftool中的smooth函数。还有金融工具箱的smooths函数及信号处理工具箱的medfilt1函数。平滑的目的是为了去除噪声,更好的表现数据的总体趋势。 3.数据的标准化 Z = zscore(X) [Z,mu,sigma] = zscore(X) 4.数据归一化 极差归一化:原数据阵X,经如下变化: 得到归一化矩阵,其每个元素的取值0-1。 第三节 描述统计 1.探索性分析 也可以叫做经验性数据分析。目的是看一看数据适合哪一种统计模型丮对于单变量数据,我们可以看看它的分布是否正态,尾部偏大还是偏小,对称还是偏态。 主要的工具就是图形工具。 1)散点图(Scatter Plots)和散点图矩阵 散点图是表示变量之间相互关系的图形。在多个变量进行图形表示时,可以利用两两变量的散点图构成散点图矩阵。 plot ,scatter, gscatter都可以用来画散点图。plotmatrix,gplotmatrix都可以用来画散点图矩阵。其中,gscatter,gplotmatrix可以在图形上标示分组的信息。 例 用散点图表示三个不同年份的汽车的重量和单位油耗的里程数的关系 load carsmall gscatter(Weight,MPG,Model_Year,'','xos') 从图上可以看出两个变量有明显的线性相关关系,且年份晚的车其重量轻而油耗低。 利用scatter3画三维散点图。 load carsmall scatter3(Weight,MPG,Model_Year) 绘制散点图矩阵 xvars = [Weight Displacement Horsepower]; yvars = [MPG Acceleration]; gplotmatrix(xvars,yvars,Model_Year,'','xos') 也可以这样画 gplotmatrix(X,[],Cylinders,['c' 'b' 'm' 'g' 'r'],[],[],false); text([.08 .24 .43 .66 .83], repmat(-.1,1,5), varNames, 'FontSize',8); text(repmat(-.12,1,5), [.86 .62 .41 .25 .

文档评论(0)

shenlan118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档