Excel数据处理.docVIP

  • 1
  • 0
  • 约 9页
  • 2017-02-09 发布于重庆
  • 举报
Excel数据处理

章一,基础操作/Shortcuts 原始数据一般都长成这样。 这是个糟糕的数据样本,但是还不是最糟的。从不同的人手里收集原始数据的时候,这种情况特别常见。 好的数据格式是: 数据整理之起式:清洗 清洗的对象,简称脏数据。一般有如下几种情况: 1.同名异物:例如公司里面有两个李明,如果不加区别地导入数据并进行合并统计,可能就会出问题。 2.同物异名:例如性别,有的人写成男女,有的人写成M/F,有的人干脆写成0/1。 3.单位错乱:例如金额,人民币和美元一旦混同,那绝对是一场灾难。 4.规格不合:例如身份证号为9527。 5.格式混乱:最典型的就是日期!例如10/6/11,根本说不清楚是11年10月6日,还是11年6月10日,抑或是10年6月11日,因为美式日期,英式日期,中式日期各自都不相同!老衲生平目睹过的日期惨案足足有12306桩那么多!另外一种是分位符。美利坚的分位符是,而欧罗巴诸国的分位符是。如果是一位叫Chateaubriand的美国同事发过来一个数字123.456,根本说不清楚这是一百挂零,还是十万有余。老衲生平目睹过的分位符惨案足足有1024桩那么多! 数据整理之承式:规制 做数据之前,先要和其他人协商好,各个数据都是什么格式,不同数据表之间的格式是否要统一,之间是否有依赖关系。如果数据不满足依赖关系如何处理。 例如先约定好,性别一律写成男/女。如果写成M/F的,那么M就当成男性,F就当成女性来处理(使用替换,或者使用中间映射表)。写成Nan/Ny的,直接当脏数据抛弃掉。 数据整理之转式:分组 在数据预处理中,分组是一个很重要的手段,例如各位少侠要面对的是本公司的工资表,想看看整体是否失衡,可以将资历分为中低高三组(日企),对应人员的工资进行汇总;但具体资历分层的节点的把握,则需要小心,必要时还需要反复尝试。例如可分成: a。工作1年以下, b。工作1年-3年 c。工作3年-5年 d。工作5年以上 跑出来一看,wow,公司是大学生创业基金支援的,全部员工都是工作1年以下。 这个时候就得按更细粒度的月来进行划分了。 数据整理之合式:聚类 聚类则更灵活,例如最早登记报册的只有员工的姓名工号,乱糟糟一大把,业余活动组织不起来怎么办? 这个时候找IT要一下各人上班的时候的浏览网页,从网页记录推算一下各人爱好,然后按照爱好进行聚类,变成篮球俱乐部,羽毛球娱乐部,DOTA俱乐部。。。。。这以后的工作就好开展了。 老衲尤其推荐使用表格格式,不单单是因为美观整齐,表格格式还集成了筛选,排序,甚至冻结窗格的功能,叫表格格式这么平淡的名字,若依老衲,应该起名叫般若波罗蜜多格。 然后说说神鬼莫测七招式:数据工具 先说说分列。这种密集大魔王造出的数据,大家想必都很常见吧。贴到Excel里面还依然是密密麻麻令人头晕目眩。 只需将之选中,使用分列式: Duang(此处应该有掌声) 接下来是速填式,说实话,这是个相对比较无聊的招式。如果功力达到第二层,使用公式函数,取而代之乃是易如反掌。 不过既然至此,老衲继续用上面的例子: 从代码缩略下面一直选到底,点击快速填充(2013独有功能)。Duang: 删除重复项实而不华,特别推荐。非常简单,不赘述。 中级法门是数据导入,早期数据清洗什么的,早在入库前就已经有人替你完成了,便当之至: 连个SQLserver看看: 注意事项: Excel初级法门中有一道奇毒,名为合并单元格,想老衲数度往生极乐,多缘于合并单元格之手。作为原始数据,尽量不要使用合并单元格,这个功能在后续处理数据的时候会带来大量的麻烦。足以令人呕血三升。合并单元格一般是在最后一步,确定数据不再修改的时候才可以使用。 另外和别的人协作处理数据的时候,最好将处理好的原始数据和呈现数据一起提交给他人,方便他人未来进一步修改。 快捷键是用来省时间的,相比来说只能算是小技巧。最好的参考资料就是微软的官方说明书: KeyboardshortcutsinExcel 至于哪些快捷键比较重要,个人觉得是单元格位置的操作,能避免在万千数据里频繁地拖动滚动条。

文档评论(0)

1亿VIP精品文档

相关文档