第3章_M语言数据建模与处理(2).pptxVIP

  • 3
  • 0
  • 约4.09千字
  • 约 30页
  • 2023-12-13 发布于陕西
  • 举报

M语言数据预处理;;将字段按比例绽放,使之落入一个特定的区间,如[-1,1]或[0,1]之间。常用的规范化有最小-最大值规范化。假定某字段的最小值为min,最大值为max,最小-最大值规范化区域为[new_min,new_max]。那么最小-最大值规范化下的规范化值如(式3-1)所示。

(式3-1)

例如,某字段规范化前取值区间为[-100,100],规范化后取值区间为[0,1],假设该字段某字段值为58,那么规范化后取值为0.79,如(式3-2)所示。

(式3-2);逆透视列是Excel和PowerQuery中处理数据行列变换的一种特有操作。它将来自单行(单个记录)中多个列的值扩展为单个列中具有同样值的多个记录,使得数据能够在合适数据存储与合适数据分析的形式之间自由变换。例如为了方便显示数据,可能会出现如下表所示的按销量区域排列的产品销量表,这个表的第1列的列名是抽象概念的产品名称,第2~4列的列名是具体的区域名称,表中第2行第2列的数值型数据3654196指的是在广东省坚果的销量,其它数值型数据如此类推。;现在使用逆透视列功能,将合适数据分析的数据表变换成如下表5所示的合适数据存储的产品销量表。;PowerQuery中,按数据类型进行数据提取可以使用Text.Remove函数,该函数的表达式如下。

Text.Remove(text,removeChars)

该格式表示:返回在“text”参数中删除了“removeChars”参数的所有字符后的新字符串。“removeChars”参数可以是独立的字段,也可以指定列表字符集合。PowerQuery常用字符的参数如下表所示。;参数表中的参数可以自由组合,字母、汉字等字符列表中间用“..”连接,列表与列表之间或列表与某具体参数之间用英文状态下的逗号“,”隔开。

在如下表所示的数据经过数据变换处理,最终数据表的效果如下图所示,具体实现步骤如下。;(1)获取数据。在“开始”选项卡的“外部数据”组中,依次单击“获取数??”“Excel”命令,导入“商品信息表.xlsx”,弹出“导航器”对话框后,勾选“商品信息表.xlsx”中的“产品信息”,如下图所示,单击“编辑”按钮。;(2)设置标题。这时“产品信息表”的标题并没有自动辨认,如左下图所示。在“开始”选项卡的“转换”组中,单击“将第一行用作标题”按钮,得到的效果如右下图所示。;(3)拆分“产品信息”字段。右键单击“产品信息”字段,依次选择“拆分列”“按分隔符”命令,弹出“按分隔符拆分列”对话框后,“选择或输入分隔符”的第一行自动设为“--自定义--”,第二行自动设为“,”。这时勾选“每次出现分隔符时”单选框,如左下图所示,单击“确定”按钮,得到的效果如右下图所示。;(4)逆透视操作,转换表格。右键单击“产品归属”字段,选择“逆透视其它列”命令,并删除“属性”字段,得到的效果如下图所示。;(5)设置转换后表格的新字段,具体步骤如下。

①设置“价格”字段。选中“值”字段,在“添加列”选项卡的“常规”组中,单击“自定义列”命令,弹出“自定义列”对话框后,将“新列名”设为“价格”,“自定义列公式”设为“=Text.Remove([值],{”一“..”龢“,”“})”,表示将“值”字段中的文字与空格去掉,如左下图所示,单击“确定”按钮,得到的效果如右下图所示。;②设置“产品名称”字段。选中“值”字段,在“添加列”选项卡的“常规”组中,单击“自定义列”命令,弹出“自定义列”对话框后,将“新列名”设为“产品名称”,“自定义列公式”设为“=Text.Remove([值],{”0“..”9“,”元“})”(注意:0到9在“值”字段中是文本型,所以需要写成“0”..“9”),表示将“值”字段中的数字文本和“元”字去掉,如左下图所示,单击“确定”按钮,得到的效果如右下图所示。;(6)删除“值”字段,

文档评论(0)

1亿VIP精品文档

相关文档