数据分析基础课程第3章数据的处理.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目录/Contents;3.1 数据清洗;; 图3-2 选择C列;(3)在“查找和替换”对话框的“查找内容”中输入“cm”,设置“替换为”为空,单击“全部替换”按钮完成替换,如图3-4所示。 替换后的结果如图3-5所示。 ;3.1.2 缺失数据的处理 数据清单中,单元格如果出现空值,就认为数据存在缺失。缺失数据的处理方法通常有以下3种: ? 用样本均值(或众数、中位数)代替缺失值; ? 将有缺失值的记录删除; ? 保留该记录,在要用到该值做分析时,将其临时删除(最常用方法)。;首先来解决如何发现缺失数据,仅靠眼睛来搜索缺失数据显然是不现实的,一般我们用“定位条件”来查找缺失数据的单元格。下面演示将“年龄”字段中的空值均替换为“18”。 (1)选择“年龄”所在的E列。 (2)选择“查找和选择”|“定位条件”命令,如图3-6所示。 (3)在“定位条件”对话框中,选中“空值”单选项,如图3-7所示。;(4)单击“确定”按钮后,E列所有的空白单元格呈选中状态,如图3-8所示。 (5)输入替代值“18”,按Ctrl+Enter组合键确认,结果如图3-9所示。 ;3.1.3 删除重复记录 删除重复记录的操作极其简单,只需单击数据表的任意位置,再单击“数据”|“删除重复项”按钮即可,如图3-10所示。 ;3.2 数据加工; 3.2.2 字段分列 (1)选择“字段分列”工作表的A列数据,如图3-12所示。 (2)单击“数据”|“分列”按钮,如图3-13所示。;(3)要将字段“姓名”中的第一个字分列出来,所以选中“固定列宽”单选项,如图3-14所示。;(4)单击“下一步”按钮,在刻度尺上单击鼠标确定分列的位置,如图3-15所示。 (5)单击“下一步”按钮,确定目标区域的起点单元格D1,如图3-16所示。 ;(6)单击“完成”按钮,分列的结果如图3-17所示。 ;3.2.3 字段匹配 字段匹配就是将原数据清单中没有但其他数据清单中有的字段匹配过来。 例如,文件“数据处理.xlsx”中的“全校名单”工作表是某校2015级全体学生的基本信息(见图3-18),“四级名单”工作表是2015级学生中报考了英语四级的学生名单(见图3-19)。 ;(1)将“白有成”的身份证号码匹配到单元格D2。 (2)双击D2的填充柄完成填??,将所有人的身份证号码都匹配过来,结果如图3-21所示。 ;;3.2.5 数据计算 例1:文件“数据处理.xlsx”的“数据计算1”工作表中只有“销量”和“单价”,没有“销售额”,可以通过公式“销售额=单价×销量”来计算销售额,如图3-23所示。 ;例2:文件“数据处理.xlsx”的“数据计算2”工作表中只有“成交单数”和“好评单数”,可以通过公式“好评率= ”来计算好评率,如图3-24所示。 ;例3:文件“数据处理.xlsx”的“数据计算3”工作表中,已知商品的“上架日期”和“下架日期”,可以通过公式“销售天数=下架日期-上架日期”来计算商品的销售天数,如图3-25所示。 ;例4:文件“数据处理.xlsx”的“数据计算4”工作表中,已知商品的“上架日期”,要计算迄今为止的上架天数,可以用函数today来获取当天的日期,用公式“=today()-B2”来计算上架天数,如图3-26所示。 ;例5:文件“数据处理.xlsx”的“数据计算3”工作表中,可以用公式“=D2/360”计算销售年数,结果为3.6,如图3-27所示。 ;这样计算出来的年数通常是一个小数,如果希望得到整数,可以用int函数取整,即用公式“=int(D2/360)”,结果是3,如图3-28所示。 因为int函数的功能是返回不大于括号内参数的整数。 ;如果要进行四舍五入式取整,则要用函数round。当round(number,digits)函数的第二个参数为0时,就可以对第一个参数进行四舍五入式取整,所以在编辑栏将公式修改为“=round(D2/360,0)”即可,如图3-29所示。 ;函数int(number)的功能是向下取整(数轴上离左边最近的整数),如图3-30所示。 ;所以,int(6.4)=int(6.7)=6,int(-6.4)=int(-6.7)=-7。 函数round(number,digits)的功能是进行四舍五入运算,功能解释如表3-1所示。;3.3 数据的修整;在这样的趋势中,也不排除受一些偶然因素或不规则因素的影响,出现与整体趋势相差很大的极端数据,如图3-32中箭头所对应的数据所示。 移动平均法就是从时间数列的第一位数值开始,按一定项数求平均数,逐项移动,形成一个新的动态数列。 常用的移动平均法有三项移动平均法和四项移动平均法。 ;3.3.1 三项移动平均法 例:计算图3-33所示的表格中,商品销售额的三项移动平均数。

文档评论(0)

shujukd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档