OpenRefine中文使用教程.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目录 第一章 :初识OpenRefine 3 介绍OpenRefine 4 要点1:安装OpenRefine 5 WINDOWS 5 MAC 5 LINUX 6 要点2:创建一个新项目 6 OpenRefine支持的文件类型 7 要点3:探索数据 9 要点4:操纵列 10 列隐藏和展开 10 移动列 12 重命名或删除列 13 要点5:使用项目操作历史 13 要点6:导出项目 15 要点7:获取更多的运行内存 18 Windows 18 Mac 18 Linux 18 小结 19 第二章:分析和修改数据 20 点1-数据排序 21 对行进行重新排序 23 点2-数据透视 23 文本透视 23 数字透视 27 定制透视 29 对标星和标旗行进行透视 32 点3-重复检测 33 点4-应用一个文本过滤 35 点5-使用简单单元格转换 36 点6-删除匹配行 39 小结 42 :初识OpenRefine 本章中,我们会说明OpenRefine是用来干什么的?为什么我们需要用它?并且怎么用它。简单介绍后,我们会通过七个基本小点让你初尝OpenRefine的魅力。 ◎安装OpenRefine ◎创建一个项目 ◎探索你的数据 ◎操纵列 ◎使用项目历史 ◎输出项目 ◎充分利用内存 虽然每个点都相对独立,我们还是建议新读者按照我们的顺序学习,最起码开始的几点需要如此,因为这几点中我们提供了软件操作的重要信息。有经验的高级读者可以按照自己喜欢自由选择。 介绍OpenRefine 我们需要承认这样一个事实:你的数据是不完美的,所有的数据都是不完美的。无论你多么小心地建立数据,错误总会偷偷溜进你的数据中。如果是多人共同创建或者已经几经转手,那么错误更加无法避免。无论你的数据本来就是数字化的,还是通过传统刊物数字化转换而来的,无论它们存储在excel表中还是数据库中,数据中的错误总是无法避免。 确认错误是保证数据质量的第一步,主要包括数据画像和数据清洗。 数据画像 Olson定义为:使用统计方法发现数据的结构、内容、质量。换句话说,这是一种对你的数据进行画像,预发现包含的错误信息的方法。 数据清洗 用半自动化的方式改正画像过程中发现的错误,比如:删除缺失和重复值、行过滤透视、值聚类及转换、单元格拆分等等。 鉴于后续章节都需要保证数据已经画像清洗过,数据转换工具(IDTS)能够快速廉价的在一个操作界面内处理大量的数据问题,即使处理人员缺乏专业技术背景,所以IDTS也就成为了首选。 OpenRefine就是这样一个IDTS工具,其能够对数据进行可视化操作处理。它很像传统的excel软件,但其工作方式更像数据库,因其并不是处理单独的单元格,而是处理列和字段。这意味着OpenRefine对于增加新行内容表现不佳,但对于探索、清洗、整合数据却功能强大。 的要点介绍将帮助您熟悉OpenRefine的主要功能,从导入导出数据到数据探索,从历史操作使用到内存管理。 要点1:安装OpenRefine 本点中,您将学习如何下载最新版本的OpenRefine和如何在你喜欢的操作系统中运行软件。 让我们开始吧:请从http://OpenR下载软件,OpenRefine原来叫做Freebase Gridworks。后来几年使用名称为Google refine。2012年10月后,这个软件被社区接手,使其真正成为开源软件。 OpenRefine2.6是使用新名称后的第一个版本,如果你对开发版本感兴趣,可以访问:/OpenRefine。 OpenRefine基于JAVA环境,也就是说和操作系统无关,你只需要保证你的电脑上安装了最新版的JAVA环境(可以到/download下载),然后根据你的操作系统按对应步骤操作: WINDOWS 下载zip压缩包 解压到指定文件夹 双击OpenRefine.exe运行 MAC 下载DMG压缩镜像文件 打开压缩镜像文件,把OpenRefine图标拖到程序文件夹 双击OpenRefine图标打开 LINUX 下载gzipped压缩包 解压到根目录 在命令行窗口输入./refine打开 我们需要了解,默认情况下,OpenRefine会分配1G内存给JAVA,处理小数据集是足够用了,但是处理大数据集就会捉襟见肘。在要点7:充分利用内存 中,我们会讨论如何让OpenRefine处理更大的数据,不同的操作系统有不同的方法。 要点2:创建一个新项目 在本点中,你会学到如何导入数据到OpenRefine,可以是新建一个项目并导入数据集,也可以是打开一个项目或者是导入别人创建的项目。 如果你按照 要点1 已经成功安装了OpenRefine并打开,你会发现OpenRefine是在你的默认浏览器中打开的,但是你需要知道:程序是在本地运行的,除了在本书附录中要使用额

文档评论(0)

zhoubingchina + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档