从数据准备体现数据分析新思维2.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从数据准备体现数据分析新思维2

* * * * (三)数据变换 1、 标准化 一些数据挖掘方法,需要对数据进行标准化以获得最佳的效果。 1)小数缩放 小数缩放移动小数点,但是要仍然保持原始数据的特征。典型的缩放是保持数值在-1和1范围内。可以用格式描述 * 2)最小-最大标准化 最小-最大标准化的格式: 注:这种转换可能会导致标准化值无意识的集中。 * 3)标准差标准化 标准差标准化的格式是 其中: 是均值; 是标准差 * 2、高维度问题 大多数数据挖掘问题的出现是因为有大量的样本具有不同类型的特征。此外,这些样本往往是高维度的,这就意味着它们有相当大数目的可测量特征。 大型数据集中这种高维现象会产生“高维祸根”(维数灾),这种现象可以用高维空间几何学来解释,这是数据挖掘问题的典型。 * 注意:数据集的大小随维数呈指数增长,这个数据集在一个n维空间中生成数据点的相同密度 例如:n个数据点的一维样本,其密度令人满意的,那么,要在k维空间中获得同样的密度,需要nk 个数据点。 注意:几乎每一个点都是异常点 高维空间的物体比低维空间的物体拥有更大的面积。 * 3、差值和比率 设数值型变量 的数值为 , 其差值转换为 ;比率转换为 。 * 应该注意: 有时是对于样本的不同属性进行转换。例如:在很多的医学数据集中,一个病人有两个属性特征,身高和体重,应用表明用一个新的叫做身体素质指标——体重和身高加权比,来反映诊断结果会更好。 * 这类数据中有一种非常重要的数据叫做幸存数据,它是关于一个特定时间发生需要多长时间的数据。 例如:在很多医学应用中,特定时间是病人的死亡,所有我们分析病人的幸存时间;在工业应用中,特定时间常常是机器中的一个部件出现事故。 幸存数据有两个区别于其他数据挖掘数据的重要特征: 第一个特征叫做审查。在很多研究中,直到研究期末时间事件都没有发生(审查观测) 第二个特征是输入值与时间有关。 * 从以上可以看出,不但统计学者应该关心数据挖掘的发展,而且已经为数据挖掘的发展作着贡献。我们要正确地认识这一点,要逐渐地加强统计学对信息科学的影响,促使别的领域的同事们增强了解统计学的价值和重要性,扩大统计学理论研究和实际应用的市场,保持统计学的健康发展和生命力。 * thanks for Your presence Any Questions? * * * * * * 从数据准备体现数据分析的新思维 ------基于统计教学的思考 * 报告内容及目的 介绍现代统计分析中的数据准备。了解大型数据库的基本表述和特征,从数据的预处理和数据变换分析,领悟现代统计方法的基本思想,体现统计学理论与实践教学特点。 * 从数据准备体现数据分析的新思维 (一) 数据选择 (二) 数据预处理 (三) 数据变换 * 1、原始数据的表述 数据样本是数据挖掘过程的基本组成部分 (一)数据选择 * 每个样本都用几个特征来描述,每个特征有不同类型的值。 常见的类型有:数值型和分类型。 数值型包括实型变量和整型变量 注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。 注意:市场调查资料 * 分类型变量的两个值可以相等或不等。 一个有两个值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1;而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。 * 例如:如果变量“季节”有4个值:春、夏、秋、冬。 特征值 编码 春 1000 夏 0100 秋 0010 冬 0001 * 2、数据分类 一种基于变量值的数据分类方法就是定性(qualitative)和定量(quantitative).定性数据也可以看作是离散型数据,是用描述性术语来区分值.例如,性别通常分为男性(M)和女性(F).有一种特殊的定性数据就是周期型数据,例如星期、月或年中的日期. * 定量型也叫连续型或度量型,是以数字值为特征,用于开发预测.如果建立了优先规则,定性型数据

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档