商务数据分析与应用-2020 商务数据转换和规约 2.5商务数据转换和规约.pptxVIP

  • 179
  • 0
  • 约2.27千字
  • 约 21页
  • 2020-10-04 发布于北京
  • 举报

商务数据分析与应用-2020 商务数据转换和规约 2.5商务数据转换和规约.pptx

《商务数据分析与应用》《商务数据分析与应用》课程组2020.1商务数据转换和规约商务数据转换和规约商务数据转换主要是将数据从一种表示形式变为另一种表现形式,使不同的数据之间具有相同的计算单位或计量方式,便于比较。数据转换主要包括数据的标准化处理、数据的代数运算、离散化等。商务数据转换和规约1、数据标准化数据标准化又称为数据的无量纲化处理。常见的数据标准化方法有Z值标准化、最大最小值标准化、归一化标准化、适度指标和逆指标的标准化方法等。01商务数据转换和规约1、数据标准化遵循准则:1)客观性原则,要对被评价对象的横纵数据作深人的分析以客观反映指标值与评价值之间的关系;2)简易型原则,尽量选择简便易行的方法对数据进行标准化处理;3)可行性原则,选用方法时要注意标准化公式的特点,还要结合评价对象、目标数据的特点。01商务数据转换和规约1、数据标准化Z值标准化方法:?利用数据的均值与标准差对数据进行处理,设大小为的数据集为,其均值为,标准差为,则标准化公式为:标准化后各变量将有约一半观察值的数值小于0,另一半观察值的数值大0,变量的平均数为0,标准差为1。Z值标准化方法适合于数据集中存在异常值或不知数据集的最大值和最小值情况。01商务数据转换和规约2、数据离散化数据离散化是指为了数据分析的需要,将连续型数据转换为离散型数据的过程。数据离散化的原因:1)有些数据分析方法要求数据是离散化的形式;2)二是离散化可以有效地克服数据中隐藏的缺陷(如异常值)使模型结果更加稳定;3)有利于对非线性关系进行诊断和描述。但是需要注意,数据离散化处理必然会损失部分原始数据中的信息。02商务数据转换和规约2、数据离散化数据的离散化方法主要有等距方法和等频方法。等距离散化是指将连续型变量的取值范围均匀划成n等份,且每份的间距相等。02等频离散化是指把观察点均匀分为n等份,每份内包含的观测值相同。商务数据转换和规约在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率。数据规约的意义在于克服无效、错误数据对数据建模造成的影响,提高建模的准确性;大幅缩减数据挖掘所需的时间;降低储存数据的成本。商务数据转换和规约1、变量规约变量规约通过合并变量来创建新变量,或者直接通过删除不相关的变量(属性)来减少数据维数,从而提高数据挖掘的效率、降低计算成本。变量规约的目标是寻找出最小的变量子集并确保新数据子集的概率分布尽可能地接近原来数据集的概率分布。01商务数据转换和规约1、变量规约变量规约的常用方法很多,以下简单介绍3种:1)变量合并。这是指将些不重要的变量合并得到新变量。2)逐步向前选择。从一个空变量集开始,每次从原来变量集合中选择一个当前最优的变量添加到新的变量子集中。直到无法选择最优变量或满足一定阈值约束为止结束。01商务数据转换和规约1、变量规约3)逐步向后删除。从一个全变量集开始,每次从当前变量子集中选择一个当前最差的变量并将其从当前变量子集中剔除。直到无法选择出最差变量为止或满足一定阈值约束为止结束。01商务数据转换和规约2、数值规约数值规约的主要思想是通过选择替代的、较小的数据来减少数据量,主要包括有参数方法和无参数方法两类。有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多元回归)和对数线性模型(近似离散属性集中的多维概率分布)。无参数方法就需要存放实际数据,例如直方图、聚类、抽样。02商务数据转换和规约2、数值规约变量数值规约的常用方法很多,以下简单介绍3种:1)利用回归模型实现数值规约是指,对数据集拟合得到回归方程.通过回归方程实现对大规模数据的规约。2)利用直方图规约数据是指,先绘制间距较小的直方图、观察每个频率组中数据量的多少,将较少的频率组与它相邻的频率组合并。02商务数据转换和规约2、数值规约3)利用抽样实现数据规约是指,对较大的数据集抽样,获取对原始数据集有代表性的样本或者利用样本估计总体特征或者利用样本进行统计检验。02商务数据转换和规约示例某商城欲对其经营状况进行描述和评估,在数据库导出并整理了2019年全部会员的消费记录,现计划随机抽取其中的30名会员完成数据的预处理及分析工作(配套电子资源附数据表)。将excel文件中的会员信息和消费记录合并后,检测需进行商务数据集成的问题如下:商务数据转换和规约示例存在的问题问题所在位置(标注行、列)解释预处理方法不一致数据GKM列HJL列有关消费金额、消费次数的指标较多,分析较繁琐数据规约(变量规约)GH列消费金额和消费次数量纲差距较大,无法同时参与运算数据转换(标准化)CD列性别、年龄为定性数据,无法参与运算数据转换(离散化)商务数据转换和规约示例原表商务数据转换和规

文档评论(0)

1亿VIP精品文档

相关文档