PowerBI数据分析与可视化第3章 M语言数据建模与处理(1).ppt

PowerBI数据分析与可视化第3章 M语言数据建模与处理(1).ppt

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据集成是指通过应用间的数据交换从而达到集成,主要解决数据的分布性和异构性的问题,数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在数据集成时,有许多问题需要考虑的,常见的问题如下。 (1) 实体识别问题。例如,某个数据表有“姓名”字段,另一个数据表有“名字”字段,是否指的是同一个实体?通常,数据库或数据仓库会有这些字段含义的描述,帮助避免数据集成时发生错误,这些相关的描述称之为元数据(Metadata)。元数据的定义是数据及信息资源的描述性信息。 (2) 数据冗余问题。如果一个字段可以由其它一个或多个字段导出,那么这个字段就是冗余字段。例如“销售额”字段,它可以由每条记录的销售商品单价乘以数量,然后求和而得到。两个数据源分别收集了同一条数据,在数据集成后,需要检测与处理这些重复的数据,这种检测与处理的操作叫“去重”操作。 了解数据集成 (3) 数据值冲突的检测与处理。对于现实世界的同一实体,不同数据源的字段可能不同。例如调查人员的拼音名时,可能是姓在前,也可能是名在前;而有些拼音是首字母大写,也有些是全部大写或全部小写。又例如,重量也可能以千克数为单位,也有些可能以斤为单位,甚至国外的以磅为单位。另外,各国的货币价值也不一致。处理这种度量上的差异,是数据集成的重要工作。 了解数据集成 在进行线下数据调查时,没有计算机进行必要的数据校验,数据填写经常会出现不规范的情况。主要原因可能是组织者没有对调查员进行必要的填写培训,也可能是调查员由于调查工作的枯燥而疏于指导被调查对象。 左下表与右下表是两名调查员填写的信息表。 实现两个数据来源的数据集成 姓名 出生年份 拼音名 姚泳 仪 1988 YAO YONG yi 林 祺 茵 1985 Lin Qi Yin 叶晓钰 1983 Ye Xiao Yu 林 柔 1996 Lin rou 王莹 1982 Wang ying 姓名 出生年份 拼音名 钟智强 1990年 zhi Qiang Zhong 欧阳 双喜 1982年 Shuang xi OuYang 司徒 健 彬 1991年 Jian bin SiTu 吴 文伟 1987年 wen wei Wu 王 莹 1982年 Wang ying 经过数据集成处理后,最终Power Query编辑器中数据表的效果如左下图所示,“字段”窗格中客户信息表的效果如右下图所示,实现步骤如下。 实现两个数据来源的数据集成 (1) 获取数据。在“开始”选项卡的“外部数据”组中,依次单击“获取数据”“Excel”命令,获取“客户信息表1.xlsx”。在“导航器”对话框的显示选项中,勾选“客户信息表1.xlsx”中的“Sheet 1”,如下图所示,单击“编辑”按钮。 实现两个数据来源的数据集成 (2) 清除“客户信息表1”的“姓名”空格,进行如下操作。 ①在“Power Query编辑器”中,右键单击“姓名”字段,依次选择“拆分列”“按分隔符”命令。 ②弹出“按分隔符拆分列”对话框后,将“选择或输入分隔符”设为“空格”,勾选“每次出现分隔符”单选框,如下图所示。 实现两个数据来源的数据集成 ③单击“确定”按钮,此时“Power Query编辑器”中的“姓名”字段分为3个字段,按住Ctrl键选中“姓名.1”“姓名.2”“姓名.3”这3个字段,右键单击选中区域,选择“合并列”命令。 ④弹出“合并列”对话框后,将“新列名”设为“姓名”,如下图所示。 实现两个数据来源的数据集成 ⑤单击“确定”按钮,合并后的姓名列的效果如下图所示。 实现两个数据来源的数据集成 (3) 处理“客户信息表1”“拼音名”字段的首字母大写问题。右键单击“拼音名”字段,依次选择“转换”“每个字词首字母大写”命令,得到的效果如下图所示。 实现两个数据来源的数据集成 (4) 处理“客户信息表1”“拼音名”字段的空格问题。与处理“姓名”字段不同,“拼音名”字段除了需要去掉前后的空格之外,其中的每个拼音之间有且只有一个空格。具体步骤如下。 ①处理“拼音名”字段的前后空格。右键单击“拼音名”字段,依次选择“转换”“修整”命令。 ②确保每个拼音之间有且只有一个空格。右键单击“拼音名”,依次选择“拆分列”“按分隔符”命令,弹出“按分隔符拆分列”对话框后,将“选择或输入分隔符”设为“空格”,勾选“最左侧的分隔符”单选框,拆分“拼音名”字段的效果如下图所示。 实现两个数据来源的数据集成 ③对“拼音名.2”字段重复本步骤①和步骤②的操作,此时生成“拼音名.2.1”和“拼音名.2.2”字段,拆分“拼音名.2”字段的效果如左下图所示。 ④右键单击“拼音名.2.2”字段,依次选择“转换”“修整”命令,处理字段中的空格的效

文档评论(0)

132****9295 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档