交通数据分析 交通数据分析 23 数据变换.pptVIP

交通数据分析 交通数据分析 23 数据变换.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * 数据变换 1 小结 目录 数据变换 2 数据变换主要是对数据进行规范化的操作,将数据转换成“适当的”格式,以适用于挖掘任务及算法的需要。常见数据变换如下: 简单函数变换 数据标准化 连续属性离散化 属性构造 小波变换 概述 简单函数变换就是对原始数据进行某些数学函数变换,常用的函数变换包括平方、开方、对数、差分运算等,如下: 简单函数变换 数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,为了消除指标之间的量纲和大小不一的影响,需要进行数据标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,从而进行综合分析。常见数据标准化方法如下: 最大-最小值标准化 零-均值标准化 小数定规标准化 数据标准化 最大-最小值标准化:也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0,1]之间。转换函数如下: 其中max为样本数据的最大值,min为样本数据的最小值。max?min为极差。 零-均值标准化:也叫标准差标准化,经过处理的数据的平均数为0,标准差为1。转化函数如下: 其中 为原始数据的均值, 为原始数据的标准差。 小数定规标准化:通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值。转化函数如下: 数据标准化 一些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式,如ID3算法、Apriori算法等。这样,常常需要将连续属性变换成分类属性,即连续属性离散化。 离散化的过程:连续属性变换成分类属性涉及两个子任务,决定需要多少个分类变量和确定如何将连续属性值映射到这些分类值。 常用的离散化方法:等宽法、等频法、基于聚类分析的方法。 连续属性离散化 在数据挖掘的过程中,为了帮助提取更有用的信息、挖掘更深层次的模式,提高挖掘结果的精度,需要利用已有的属性集构造出新的属性,并加入到现有的属性集合中。 比如进行防窃漏电诊断建模时,已有的属性包括进入线路供入电量、该条线路上各大用户用电量之和,记为供出电量。理论上供入电量和供出电量应该是相等的,但是由于在传输过程中的电能损耗,会使得供入电量略大于供出电量,如果该条线路上的一个或多个大用户存在窃漏电行为,会使供入电量远大于供出电量。反过来,为了判断是否存在有窃漏电行为的大用户,需要构造一个新的关键指标--线损率,该过程就是构造属性。新构造的属性线损率计算公式如下。 线损率=(供入电量-供出电量)/供入电量 线损率的范围一般在3%~15%,如果远远超过该范围,就可以认为该条线路的大用户很大可能存在窃漏电等用电异常行为。 属性构造 基于小波变换的特征提取方法及其方法描述如下表。 小波变换 小波基函数是一种具有局部支集的函数,平均值为0,小波基函数满足: 。Haar小波基函数是常用的小波基函数,如下图。 小波变换 小波基函数伸缩和平移变换模型为: 其中, 为伸缩因子, 为平移因子。 任意函数 的连续小波变换(CWT)为: 上式的逆变换为: 小波变换 基于小波变换的多尺度空间能量分布特征提取方法如下: 对 进行二进小波分解: 其中 是近似信号,为低频部分; 是细节信号,为高频部分,此时信号的频带分布图如下图所示。 计算出信号能量: 选择第 层的近似信号和各层的细节信号的能量作为特征, 构造特征向量: 小波变换 1 小结 目录 数据变换 2 本章主要介绍了数据预处理中的数据变换步骤,数据变换主要是为了将原始数据转换为“合适的”形式,为之后的分析与建模步骤服务。数据变换拥有多种方式,包括简单函数变换、数据标准化、连续属性离散化、属性构造和小波变换。 小结 * *

您可能关注的文档

文档评论(0)

WanDocx + 关注
实名认证
文档贡献者

大部分文档都有全套资料,如需打包优惠下载,请留言联系。 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档